Hugging Face의 Accelerate 라이브러리에 DeepSpeed ZeRO를 통합해 코드 변경 없이 배치 크기 8에서 40으로 5배 확대 및 학습 시간 3.5배 단축

Accelerate Large Model Training using DeepSpeed

2022년 6월 28일10분intermediate

AI 요약

Context

대규모 모델 학습 시 Out of Memory(OOM) 오류가 발생하는 문제가 있었다. 기존 Distributed Data Parallel(DDP)은 단일 노드 멀티-GPU 환경에서 최대 배치 크기 8 제한으로 인해 하드웨어 활용도가 낮았다.

실천 포인트

900M 이상의 대규모 언어 모델을 멀티-GPU 환경에서 미세조정하는 팀에서 기존 PyTorch 학습 루프 코드를 유지한 채 `accelerate config`로 DeepSpeed ZeRO Stage-2를 활성화하면 배치 크기 제약을 5배까지 완화하고 전체 학습 시간을 3배 이상 단축할 수 있다.

태그

#Distributed Training #Large Language Models #Accelerate #ZeRO #DeepSpeed

원문 읽기