피드로 돌아가기
Google Cloud C4 Brings a 70% TCO improvement on GPT OSS with Intel and Hugging Face
Hugging Face BlogHugging Face Blog
Backend

Intel과 Hugging Face가 Google Cloud C4 VM에서 MoE 모델의 전문가 실행 최적화를 구현해 GPT OSS 추론 성능 1.7배 향상 및 TCO 70% 개선

Google Cloud C4 Brings a 70% TCO improvement on GPT OSS with Intel and Hugging Face

2025년 10월 16일12intermediate

Context

OpenAI GPT OSS와 같은 Mixture of Experts(MoE) 모델은 대규모 파라미터를 가지고 있지만 토큰당 소수의 전문가만 활성화되어 CPU 추론이 가능하다는 장점이 있다. 그러나 기존 구현에서는 모든 전문가가 모든 토큰을 처리하는 중복 계산으로 인해 FLOPs 낭비가 발생했다.

Technical Solution

  • MoE 전문가 실행 최적화 적용: Transformers PR #40304를 통해 각 전문가가 라우팅된 토큰에만 실행되도록 변경하여 중복 계산 제거
  • Google Cloud C4 VM 인스턴스 도입: Intel Xeon 6 프로세서(Granite Rapids, GNR) 기반 C4 VM(144 vCPU)으로 업그레이드, 기존 4th Gen Intel Xeon 프로세서(SPR) 기반 C3 VM(172 vCPU) 대체
  • 추론 환경 최적화: Static KV 캐시와 SDPA 어텐션 백엔드를 활성화하여 결정론적 성능 측정 보장
  • 벤치마크 설정 표준화: 1024 토큰 입력, 1024 토큰 출력, 배치 크기 1~64로 정상 상태 디코딩 성능 측정

Impact

  • vCPU당 정규화된 처리량: C4가 C3 대비 1.7배 향상
  • 배치 크기 64에서 TPOT 처리량: 1.4배~1.7배 개선
  • vCPU당 달러 효율: C3 대비 1.4배~1.7배 향상
  • 총 소유 비용(TCO): C3 대비 1.7배 개선(C3는 동일 토큰 생성량에 1.7배 비용 필요)

Key Takeaway

MoE 모델 추론에서는 프레임워크 최적화(전문가별 조건부 실행)와 하드웨어 세대 업그레이드가 결합될 때 성능과 비용 효율을 동시에 달성할 수 있다. CPU 기반 LLM 서빙에서는 불필요한 계산 경로를 제거하는 것이 하드웨어 개선만큼 중요하다.


MoE 아키텍처를 사용하는 LLM 추론 서비스에서 각 전문가가 라우팅된 토큰에만 실행되도록 최적화하면 FLOPs 낭비를 제거하고 vCPU당 처리량을 1.7배 향상시킬 수 있으며, 신세대 CPU 플랫폼으로의 마이그레이션과 함께 진행하면 인프라 비용을 크게 절감할 수 있다.

원문 읽기
Google Cloud C4 Brings a 70% TCO improvement on GPT OSS with Intel and Hugging Face | Devpick