Hugging Face와 AMD가 파트너십을 통해 Instinct MI250에서 BERT-Large 1.2배, GPT2-Large 1.4배 빠른 훈련 성능 달성

Hugging Face and AMD partner on accelerating state-of-the-art models for CPU and GPU platforms

2023년 6월 13일7분intermediate

AI 요약

Context

Transformer 모델의 사전 학습, 미세 조정, 추론에는 상당한 계산 리소스가 필요하다. 심층 학습 하드웨어 선택이 수년간 제한적이었으며 가격과 공급이 증가하는 추세를 보이고 있다.

Technical Solution

GPU 플랫폼 최적화: AMD Instinct MI2xx, MI3xx 계열(엔터프라이즈급)과 Radeon Navi3x 계열(소비자급)에서 Transformer 모델 성능 개선
CPU 추론 최적화: Ryzen 클라이언트 CPU와 EPYC 서버 CPU에서 양자화 등 모델 압축 기법과 함께 추론 최적화
AI 가속기 지원: Alveo V70 AI 가속기를 통한 저전력 고성능 추론 구현
모델 아키텍처 지원: BERT, DistilBERT, ROBERTA, Vision Transformer, CLIP, Wav2Vec2, GPT2, GPT-NeoX, T5, OPT, LLaMA, BLOOM, StarCoder, ResNet, ResNext 등 자연어 처리, 컴퓨터 비전, 음성, 생성형 AI, 추천 시스템 모델 검증
프레임워크 통합: PyTorch, TensorFlow, ONNX Runtime에서 위 모델 테스트 및 검증
ROCm SDK 통합: Transformers 라이브러리부터 시작해 오픈소스 라이브러리에 AMD ROCm SDK 원활히 통합
Optimum 라이브러리 확장: AMD 플랫폼 전용 Optimum 라이브러리 개발을 통해 최소한의 코드 변경으로 활용 가능하도록 구현

Impact

MI250에서 BERT-Large 1.2배 빠른 훈련 성능 달성
MI250에서 GPT2-Large 1.4배 빠른 훈련 성능 달성

Key Takeaway

하드웨어 제조사와의 명확한 파트너십을 통해 특정 칩의 가속 기능을 체계적으로 활용하면, 오픈소스 생태계 전체가 비용 대비 성능 표준을 새롭게 설정할 수 있다. GPU뿐 아니라 CPU와 AI 가속기까지 포함한 다중 하드웨어 플랫폼 지원이 사용자에게 선택의 자유도와 시장 경쟁력을 동시에 제공한다.

실천 포인트

Transformer 모델을 배포하는 엔지니어는 AMD MI2xx/MI3xx GPU나 EPYC CPU 기반 인프라를 사용할 때, Hugging Face Optimum 라이브러리의 AMD 확장판을 통해 모델 컴파일 및 최적화를 최소한의 코드 변경으로 수행할 수 있으며, 이를 통해 NVIDIA 기반 배포와 비슷한 성능을 합리적인 비용으로 달성할 수 있다.

태그

#Model optimization #Transformer #ROCm #AMD #Hugging Face

원문 읽기