피드로 돌아가기
Fast Inference on Large Language Models: BLOOMZ on Habana Gaudi2 Accelerator
Hugging Face BlogHugging Face Blog
AI/ML

Habana Labs가 Gaudi2 가속기와 Optimum Habana 라이브러리를 통해 176억 파라미터 BLOOMZ 모델의 추론 지연시간을 Nvidia A100 80GB 대비 1.42배 단축

Fast Inference on Large Language Models: BLOOMZ on Habana Gaudi2 Accelerator

2023년 3월 28일9intermediate

Context

대규모 언어 모델의 추론 배포는 메모리와 처리 속도 측면에서 심각한 도전 과제를 제시한다. BLOOMZ는 176억 파라미터로 16비트 정밀도에서도 352GB의 메모리가 필요하여 기존 단일 가속기에서 실행이 불가능하다. 따라서 멀티 디바이스 병렬 처리와 추론 최적화를 통한 저지연시간 배포 방식이 필수적이다.

Technical Solution

  • DeepSpeed-inference 도입: 모델 병렬성과 파이프라인 병렬성을 통해 대규모 모델을 여러 디바이스에 분산 배치
  • Habana Gaudi2 HPU 지원 추가: 행렬 곱셈(GeMM) 및 연산을 병렬 처리하는 아키텍처로 기존 GPU 대비 처리 속도 향상
  • SynapseAI 그래프 컴파일러 최적화: 연산자 융합, 데이터 레이아웃 관리, 병렬화, 파이프라이닝, 메모리 관리를 통한 그래프 수준 최적화 적용
  • HPU 그래프와 DeepSpeed-inference 통합: CUDA 그래프와 달리 모델 병렬성을 지원하는 HPU 그래프로 지연시간 민감 애플리케이션 최적화
  • Optimum Habana 라이브러리 제공: Transformers 라이브러리와의 연동을 통해 복잡한 배포 스크립트 없이 추론 실행 간소화

Impact

  • BLOOMZ (176억 파라미터): Gaudi2 대비 A100 80GB는 4.402초 vs 3.103초 → 1.42배 높은 처리 속도
  • BLOOMZ-7B (다중 디바이스): Gaudi2 8개 디바이스 0.734초 vs A100 80GB 2.417초 → 2.89배 높은 처리 속도
  • BLOOMZ-7B (단일 디바이스): Gaudi2 0.772초 vs A100 80GB 2.119초
  • Optimum Habana 1.6 + SynapseAI 1.10 업데이트: Gaudi2의 BLOOMZ 처리 속도 1.42배 향상

Key Takeaway

특정 하드웨어 가속기의 아키텍처적 특성(병렬 GeMM 처리, HPU 그래프)을 소프트웨어 최적화(DeepSpeed-inference, SynapseAI 컴파일러)와 결합하면 기존 GPU 기반 추론보다 실제 성능 우위를 달성할 수 있다. 추상화된 라이브러리(Optimum Habana)를 통해 이러한 최적화를 개발자 관점에서 투명하게 활용할 수 있는 구조가 실제 도입의 핵심이다.


수십억 파라미터 규모의 대형 언어 모델을 여러 가속기에 배포해야 하는 팀에서는 하드웨어 벤더가 제공하는 DeepSpeed-inference 포크(Habana의 경우)와 그래프 컴파일러 최적화(SynapseAI)를 조합해 사용하면, 검증된 벤치마크 환경에서 기존 GPU 대비 1.4~2.9배의 처리 속도 향상을 기대할 수 있다. 이때 Transformers와 호환되는 통합 라이브러리(Optimum Habana) 사용으로 배포 복잡도를 크게 낮출 수 있다.

원문 읽기