피드로 돌아가기
Introducing the AMD 5th Gen EPYC™ CPU
Hugging Face BlogHugging Face Blog
Infrastructure

AMD가 Zen5 아키텍처 기반 5세대 EPYC CPU(Turin)를 출시해 이전 세대(Genoa) 대비 LLM 추론 처리량 2배 향상

Introducing the AMD 5th Gen EPYC™ CPU

2024년 10월 10일7intermediate

Context

기존 AMD Genoa EPYC CPU(96코어)로는 대규모 언어 모델 추론 시 처리량이 제한되어 있었고, LLM 및 RAG 시나리오에서 레이턴시 최소화와 처리량 극대화를 동시에 달성하기 어려웠다.

Technical Solution

  • AMD 5세대 EPYC CPU(Turin) 도입: Zen5 아키텍처 기반, 최대 192코어와 384스레드 지원
  • ZenDNN PyTorch 플러그인(zentorch) 활용: torch.compile 그래프 컴파일 플로우와 통합되어 torch.fx 그래프 레벨 최적화 수행
  • bfloat16 데이터 타입 및 ZenDNN 5.0 사용: 추론 성능 최적화
  • 다중 인스턴스 병렬 구성: 소켓당 32개 물리 코어를 메타 LLaMA 3.1 8B 모델 인스턴스에 할당
  • 배치 크기 16과 32, 요약/챗봇/번역/에세이 작성/라이브 캡셔닝 등 5가지 실제 워크로드로 벤치마킹

Impact

AMD Turin은 Genoa 대비 대부분의 구성에서 약 2배 높은 디코딩 처리량(첫 토큰 제외)을 달성했다.

Key Takeaway

서버급 CPU 성능 개선 시 아키텍처 업그레이드와 함께 프레임워크별 최적화 플러그인(ZenDNN)을 함께 도입하면 실제 프로덕션 워크로드에서 기대 이상의 성능 향상을 구현할 수 있다.


AMD EPYC CPU 기반 추론 서비스를 운영하는 팀에서 ZenDNN PyTorch 플러그인을 torch.compile과 함께 사용하고 bfloat16 데이터 타입을 적용하면, 코드 변경 최소화로 추론 처리량을 2배까지 향상시킬 수 있다.

원문 읽기