AMD와 Hugging Face가 Transformers 라이브러리에 AMD Instinct GPU 네이티브 지원을 추가해 코드 변경 없이 MI250에서 A100 대비 2.33배 높은 디코딩 처리량 달성

AMD + 🤗: Large Language Models Out-of-the-Box Acceleration with AMD GPU

2023년 12월 5일10분intermediate

AI 요약

Context

Hugging Face Transformers 모델들이 NVIDIA GPU에 최적화되어 있어 AMD Instinct GPU에서 실행하려면 별도의 코드 수정이 필요했다. AI 모델 추론 및 학습 성능을 AMD 하드웨어에서도 NVIDIA 수준으로 제공하기 위한 표준화된 지원이 부재했다.

Technical Solution

Hugging Face Transformers 모델의 코드 변경 없이 AMD Instinct GPU에서 실행: torch.device("cuda") 호출 시 자동으로 AMD GPU 감지 및 활용
Flash Attention 2, Tensor Parallelism, Distributed Data Parallel 등 AMD Instinct GPU 최적화 기법 통합: PyTorch 백엔드에서 ROCm 지원으로 구현
MI250의 두 개 ROCm 디바이스(각 64GB HBM) 활용: 단일 GPU 카드에서 tensor parallelism과 data parallelism 동시 적용 가능
Text Generation Inference(TGI) 컨테이너 이미지 배포: ghcr.io/huggingface/text-generation-inference:1.2-rocm을 통해 프로덕션 추론 환경 제공
AMD Instinct 데이터센터에서 지속적 통합 테스트 파이프라인 구축: 탄소 영향 최소화를 위해 아이슬란드의 Verne Global 인프라 활용

Impact

디코딩 처리량(Decode Throughput): MI250이 A100 대비 2.33배 높음
Prefill 레이턴시(Time To First Token): MI250이 A100의 절반 수준
학습 배치 크기: MI250이 같은 크기 A100 카드보다 더 큰 배치 수용 가능
메모리 용량: MI250 128GB vs A100 80GB

Key Takeaway

프로프라이어터리 GPU 플랫폼에 종속되지 않으려면 상위 라이브러리(Transformers, Diffusers)에서 하드웨어 추상화를 철저히 해야 하며, 이를 통해 최종 사용자 코드는 변경 없이 다양한 가속기 지원이 가능해진다. 또한 프로덕션 솔루션(TGI)을 함께 제공함으로써 개발부터 배포까지 일관된 경험을 보장하는 것이 플랫폼 채택의 결정 요소가 된다.

실천 포인트

대규모 언어 모델을 배포하는 조직에서 NVIDIA GPU 독점 상황을 벗어나려면, Hugging Face Transformers + Text Generation Inference + AMD Instinct MI250 조합을 도입하면 동일한 모델 코드로

2.33배 높은 처리량과 50% 낮은 첫 토큰 레이턴시를 얻을 수 있으며, 128GB 메모리를 활용해 더 큰 배치와 시퀀스 길이를 처리할 수 있다.

태그

#AMD GPU #ROCm #Transformers #LLM-Inference #Text Generation

원문 읽기