Hugging Face가 🤗 Optimum 라이브러리를 오픈소스로 공개해 Transformer 모델의 양자화·가속화를 하드웨어별로 자동화

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

2021년 9월 14일9분intermediate

AI 요약

Context

Transformer 기반 모델(BERT, ViT, Speech2Text)은 NLP·컴퓨터 비전·음성 인식에서 최고 성능을 기록했으나, 프로덕션 배포 시 막대한 계산량이 필요했다. Transformer 모델 양자화는 PyTorch eager mode에서 모델 구현 직접 수정, 양자화 연산자 찾기, 캘리브레이션 파라미터 튜닝 등으로 인해 수 개월이 소요되는 복잡한 작업이었다. Tesla·Google·Microsoft·Facebook 같은 대규모 ML 엔지니어링팀이 있는 기업만 이를 효율적으로 처리할 수 있었다.

Technical Solution

Transformer 최적화 추상화: Transformers 라이브러리처럼 모델 가속 기법의 복잡성을 추상화하는 Optimum 라이브러리 제공
하드웨어별 가속 기법 통합: Intel Neural Compressor, 양자화·스파시티 기법을 각 하드웨어 플랫폼의 최적화 커널과 호환되도록 지원
구성 기반 양자화 설정: YAML 설정 파일로 양자화 스킴(int8/uint8/int16), 옵저버 타입, 캘리브레이션 전략을 지정 가능
Model Hub 통합 배포: 하드웨어 특화 최적화 모델 구성과 아티팩트를 Hugging Face Model Hub를 통해 배포
하드웨어 파트너 협업 체계: Intel 등 하드웨어 파트너와 협력해 특정 플랫폼용 가속 기법 검증 및 유지관리

Key Takeaway

Transformer 프로덕션 최적화는 소프트웨어와 하드웨어의 3차원 호환성 매트릭스(모델·프레임워크·하드웨어)를 다루는 작업인데, 추상화 계층을 통해 일반 ML 엔지니어도 하드웨어 특화 최적화 기법을 접근 가능하게 만드는 것이 핵심이다.

실천 포인트

Transformer 기반 프로덕션 서비스를 구축하는 엔지니어링팀에서 Intel Xeon CPU 같은 특정 하드웨어를 대상으로 할 때, 🤗 Optimum + Intel Neural Compressor를 조합해 YAML 설정만으로 양자화 모델을 생성하면 모델 구현 수정 작업 제거 및 캘리브레이션 튜닝 시간을 대폭 단축할 수 있다.

태그

#Model optimization #Production ML #Intel Neural Compressor #Quantization #Transformers

원문 읽기