Google Cloud C4 인스턴스(5th Gen Xeon with AMX)가 N2(3rd Gen Xeon)를 텍스트 임베딩에서 10~24배, 텍스트 생성에서 2.3~3.6배 성능 향상 달성
Benchmarking Language Model Performance on 5th Gen Xeon at GCP
AI 요약
Context
에이전틱 AI 시스템은 벡터 데이터베이스, 센서 입력 등 CPU에서 동작하는 도구들을 포함하면서 호스트-가속기 간 트래픽 오버헤드가 증가하고 있습니다. 동시에 Small Language Models(1B~3B 파라미터)가 등장하고 Intel AMX 같은 CPU 기반 AI 가속 기능이 추가되면서 CPU만으로 전체 에이전틱 AI 시스템 구동 가능성이 제기되었습니다.
Technical Solution
- 벤치마크 대상 인스턴스 선정: GCP C4(5th Gen Intel Xeon Emerald Rapids with AMX) vs N2(3rd Gen Intel Xeon Ice Lake with AVX-512만 지원)
- 동일 코어 수 기준 비교: 양쪽 모두 96vCPU(단일 소켓) 구성으로 통일
- 텍스트 임베딩 벤치마크: WhereIsAI/UAE-Large-V1 모델, 입력 시퀀스 길이 128, 배치 크기 1~128 스윕
- 텍스트 생성 벤치마크: meta-llama/Llama-3.2-3B 모델, 입력 길이 256 + 출력 길이 32, 배치 크기 1~64 스윕
- 측정 도구: Hugging Face optimum-benchmark 라이브러리, optimum-intel 백엔드 활용
- 벤치마크 설정 수정: NUMA 구성을 cpunodebind 0에서 0,1로, membind 0에서 0,1로 변경하여 멀티소켓 리소스 활용
Impact
텍스트 임베딩: C4가 N2 대비 10배~24배 높은 처리량 달성 텍스트 생성: C4가 N2 대비 2.3배~3.6배 높은 처리량 달성 배치 크기 1~16 범위에서 C4의 처리량은 13배 향상하면서 레이턴시 추가 증가 최소화 TCO 관점: C4 시간당 요금이 N2의 1.3배임에도 불구하고 텍스트 임베딩에서 7배~19배, 텍스트 생성에서 1.7배~2.9배의 TCO 우위 확보
Key Takeaway
AMX 및 메모리 개선으로 강화된 최신 Xeon CPU는 호스트-가속기 트래픽 오버헤드 없이 경량 에이전틱 AI 솔루션을 CPU에만 배포할 수 있는 경제성을 제공합니다. 향후 Granite Rapids(2배 성능 향상 예상)로 이 경향은 더욱 심화될 것으로 예상됩니다.
실천 포인트
가벼운 에이전틱 AI 워크로드(Small Language Model 기반 텍스트 임베딩/생성)를 GCP에 배포하려는 팀은 최신 세대 Xeon CPU(AMX 지원)를 탑재한 C4 인스턴스를 선택하면 GPU 기반 솔루션 대비 호스트-가속기 트래픽 오버헤드를 제거하면서도 TCO 관점에서 1.7배~19배의 비용 이점을 얻을 수 있습니다.