피드로 돌아가기
Hugging Face BlogBackend
원문 읽기
Hugging Face와 AWS가 Transformer 모델을 AWS Inferentia2에 최적화하여 NVIDIA A10G GPU 대비 4.5배 낮은 레이턴시 달성
Accelerating Hugging Face Transformers with AWS Inferentia2
AI 요약
Context
Transformer 모델은 NLP, CV, 음성 등 다양한 ML 태스크에서 표준이 되었으나, 모델 크기가 수십~수백 GB에 달해 단일 가속기에 적재하기 어렵고 프로덕션 배포 시 높은 처리량과 낮은 레이턴시를 동시에 달성하기 복잡했다. ML 실무자들은 모델 분할, 클러스터 분산, 수동 최적화라는 시간 소모적이고 접근성 낮은 작업을 강요받았다.
Technical Solution
- AWS Inferentia2 칩 도입: 단일 Inferentia2 칩이 Inferentia1 대비 4배 높은 처리량과 10배 낮은 레이턴시 제공
- EC2 Inf2 인스턴스 구성: 1~12개의 Inferentia2 칩을 장착한 다양한 사이즈 제공, 최대 인스턴스(inf2.48xlarge)는 175억 파라미터 모델(GPT-3, BLOOM) 로드 가능
- Inferentia2 간 직렬 연결: 분산 추론을 위해 여러 칩을 blazing-fast 직접 연결로 통합
- optimum neuron 라이브러리 활용: 모델 수정 없이 단일 라인 코드로 Inferentia2용 컴파일 수행
- AWS Neuron SDK 네이티브 통합: 개발자가 모델 분할이나 최적화 작업 없이 자동 처리
Impact
- AWS Inferentia2는 NVIDIA A10G GPU 대비 4.5배 향상된 레이턴시 달성(평균)
- BERT-base 모델에서 최대 시퀀스 길이 256일 때 Inferentia2가 다른 모든 설정 대비 약 6배 우수한 레이턴시 제공
- Vision Transformer 모델 실행 시 NVIDIA A10G 대비 2배 향상된 레이턴시 달성
- EC2 G5 인스턴스 대비 최대 2.6배 향상된 처리량, 8.1배 낮은 레이턴시, 50% 향상된 와트당 성능 제공
- 시간당 최저 0.76달러로 테스트 가능한 저렴한 비용
Key Takeaway
Transformer 모델의 프로덕션 배포는 수동 최적화와 높은 ML 전문성을 요구했으나, 목적 설계된 추론 가속기와 자동 컴파일 도구의 조합으로 ML 실무자의 접근성을 낮추고 추론 지연 시간을 극적으로 단축할 수 있다. 분산 시스템의 복잡성을 하드웨어와 소프트웨어 추상화로 감추는 것이 AI 민주화의 핵심이다.
실천 포인트
Transformer 기반 추론 서비스를 운영하는 팀에서 NVIDIA GPU 대신 AWS Inferentia2를 선택하면 모델 수정 없이 optimum neuron으로 자동 컴파일만으로 4배 이상의 레이턴시 개선과 50% 이상의 비용 절감을 동시에 달성할 수 있으며, 특히 GPT-3 규모의 대형 모델을 단일 인스턴스에서 실행 가능하게 한다.