HuggingFace 팀이 Megatron-DeepSpeed 학습 모델을 Transformers로 포팅하고 Pipeline Parallelism + Accelerate + CUDA 커널 최적화로 BLOOM 모델 추론 지연시간 5배 단축 및 처리량 50배 증가

Optimization story: Bloom inference

2022년 10월 12일12분advanced

AI 요약

Context

BLOOM은 176B 파라미터를 가진 352GB 규모의 초대형 모델로, Megatron-DeepSpeed로 학습되어 Transformers 라이브러리와 호환되지 않았다. 단일 GPU에서 실행 불가능하며 다중 GPU 환경에서 효율적인 추론 서빙 체계가 필요했다.

Technical Solution

Megatron-DeepSpeed 학습 모델을 Transformers 라이브러리로 포팅: 약 1개월, 200개 커밋 투입하여 호환성 확보
소형 테스트 모델 구축: bigscience-small-testing 및 bloom-560m으로 개발 속도 향상
Pipeline Parallelism + Accelerate device_map="auto" 도입: 모델의 각 계층을 다중 GPU에 분산 배치하여 순차 처리 구조 구현
추론 전용 CUDA 커널 작성: Flash Attention 기반 최적화 커널로 연산 성능 개선
토큰 생성 배치 처리 개선: 동일 길이의 요청을 그룹화하여 패딩 오버헤드 감소
ALiBi(Attention with Linear Biases) 텐서 계산 최적화: Transformer 주의 메커니즘 가속화

Impact

추론 지연시간 5배 단축
처리량 50배 증가

Key Takeaway

초대형 모델 추론 최적화는 단일 기법이 아닌 포팅 정확성 검증, 분산 병렬화 아키텍처, 저수준 커널 최적화의 계층적 조합이 필수이며, 개발 과정에서 소규모 모델로의 빠른 반복과 결정적 테스트 스위트(고정 프롬프트 기반 검증)가 큰 모델 개발의 토대가 된다.

실천 포인트

초대형 언어 모델 추론 서버를 구축하는 팀은 Accelerate의 device_map="auto" 기능으로 다중 GPU 간 자동 계층 분산을 먼저 구현한 후, CUDA 또는 Triton 커널로 주의 메커니즘과 같은 병목 연산을 선택적으로 최적화하되, 각 단계마다 고정된 프롬프트 세트를 통해 생성 결과의 일관성을 검증하면 안정적인 성능 개선이 가능하다.

태그

#Transformers #BLOOM #Pipeline Parallelism #CUDA Kernels #Inference Optimization

원문 읽기