Hugging Face가 Accelerate를 1.0 정식 버전으로 출시하며 6개 하드웨어 가속기 지원 및 안정화된 다중 GPU/TPU 훈련 API 제공

Accelerate 1.0.0

2024년 9월 13일6분intermediate

AI 요약

Context

3.5년 전 Accelerate는 단순한 다중 GPU/TPU 훈련 프레임워크였으나, 4050억 파라미터 규모의 언어 모델(Llama)이 표준이 되면서 대규모 훈련 및 대규모 모델 추론에서 다양한 공통 문제에 대응할 필요가 증대되었다. Accelerate가 Transformers, Diffusers, PEFT, TRL 등 Hugging Face 거의 모든 패키지의 기초가 되면서 안정화된 API 정의가 필수적이었다.

Technical Solution

훈련 루프 호환성 유지: CPU, GPU, TPU, XPU, NPU, MLU 6개 하드웨어 가속기 지원하면서 기존 PyTorch 훈련 루프의 99% 보존
명령줄 인터페이스 도입: 다양한 하드웨어 구성에서 스크립트를 구성하고 실행할 수 있는 CLI 제공
멀티 디바이스 추론 기능 확대: device_map="auto" 기능으로 대규모 언어 모델의 다중 디바이스 추론 및 파라미터 효율적 미세 조정(PEFT)을 통한 소규모 연산 환경에서의 훈련 지원
API 간소화: Accelerator 중심의 설정 단순화 및 확장성 향상
마이그레이션 지원: dispatch_batches, split_batches, even_batches 등 기존 파라미터를 DataLoaderConfiguration 단일 객체로 통합, use_fp16 제거 후 mixed_precision 속성으로 대체, AutocastKwargs를 통한 캐시 플래그 관리 등 8개 주요 변경 사항 문서화

Impact

누적 다운로드 1억 건 이상, 일일 다운로드 30만 건

Key Takeaway

장기간 안정성을 확보한 프레임워크는 버전 1.0을 통해 API를 확정하고, 이후 torchao, torchtitan, FP8 훈련, FSDPv2 등 새로운 기술 통합에 집중할 수 있는 기반을 마련하는 것이 중요하다. 사용자 대면 API는 유지하되 내부 구현은 진화하는 생태계에 대응할 수 있도록 설계해야 한다.

실천 포인트

다중 GPU/TPU 훈련을 구현하는 엔지니어는 Accelerate

1.0의 DataLoaderConfiguration, AutocastKwargs 등 새로운 구성 패턴을 도입하면 하드웨어 변경(CPU → GPU → TPU)에 따른 코드 수정을 최소화할 수 있으며, 동일 코드 베이스에서 6개 하드웨어 가속기를 전환 가능하다.

태그

#Distributed Training #PyTorch #PEFT #Multi-GPU #LLM

원문 읽기