피드로 돌아가기
Benchmarking Language Model Performance on 5th Gen Xeon at GCP
Hugging Face BlogHugging Face Blog
Infrastructure

Google Cloud C4 인스턴스(5th Gen Xeon with AMX)가 N2(3rd Gen Xeon)를 텍스트 임베딩에서 10~24배, 텍스트 생성에서 2.3~3.6배 성능 향상 달성

Benchmarking Language Model Performance on 5th Gen Xeon at GCP

2024년 12월 17일10intermediate

Context

에이전틱 AI 시스템은 벡터 데이터베이스, 센서 입력 등 CPU에서 동작하는 도구들을 포함하면서 호스트-가속기 간 트래픽 오버헤드가 증가하고 있습니다. 동시에 Small Language Models(1B~3B 파라미터)가 등장하고 Intel AMX 같은 CPU 기반 AI 가속 기능이 추가되면서 CPU만으로 전체 에이전틱 AI 시스템 구동 가능성이 제기되었습니다.

Technical Solution

  • 벤치마크 대상 인스턴스 선정: GCP C4(5th Gen Intel Xeon Emerald Rapids with AMX) vs N2(3rd Gen Intel Xeon Ice Lake with AVX-512만 지원)
  • 동일 코어 수 기준 비교: 양쪽 모두 96vCPU(단일 소켓) 구성으로 통일
  • 텍스트 임베딩 벤치마크: WhereIsAI/UAE-Large-V1 모델, 입력 시퀀스 길이 128, 배치 크기 1~128 스윕
  • 텍스트 생성 벤치마크: meta-llama/Llama-3.2-3B 모델, 입력 길이 256 + 출력 길이 32, 배치 크기 1~64 스윕
  • 측정 도구: Hugging Face optimum-benchmark 라이브러리, optimum-intel 백엔드 활용
  • 벤치마크 설정 수정: NUMA 구성을 cpunodebind 0에서 0,1로, membind 0에서 0,1로 변경하여 멀티소켓 리소스 활용

Impact

텍스트 임베딩: C4가 N2 대비 10배~24배 높은 처리량 달성 텍스트 생성: C4가 N2 대비 2.3배~3.6배 높은 처리량 달성 배치 크기 1~16 범위에서 C4의 처리량은 13배 향상하면서 레이턴시 추가 증가 최소화 TCO 관점: C4 시간당 요금이 N2의 1.3배임에도 불구하고 텍스트 임베딩에서 7배~19배, 텍스트 생성에서 1.7배~2.9배의 TCO 우위 확보

Key Takeaway

AMX 및 메모리 개선으로 강화된 최신 Xeon CPU는 호스트-가속기 트래픽 오버헤드 없이 경량 에이전틱 AI 솔루션을 CPU에만 배포할 수 있는 경제성을 제공합니다. 향후 Granite Rapids(2배 성능 향상 예상)로 이 경향은 더욱 심화될 것으로 예상됩니다.


가벼운 에이전틱 AI 워크로드(Small Language Model 기반 텍스트 임베딩/생성)를 GCP에 배포하려는 팀은 최신 세대 Xeon CPU(AMX 지원)를 탑재한 C4 인스턴스를 선택하면 GPU 기반 솔루션 대비 호스트-가속기 트래픽 오버헤드를 제거하면서도 TCO 관점에서 1.7배~19배의 비용 이점을 얻을 수 있습니다.

원문 읽기