PyTorch 단일 GPU 학습 코드를 torch.distributed, Accelerate, Trainer API 세 단계로 단계적으로 분산 학습으로 전환하는 방법

From PyTorch DDP to Accelerate to Trainer, mastery of distributed training with ease

2022년 10월 21일12분intermediate

AI 요약

Context

PyTorch의 기본 단일 GPU 학습 코드는 python myscript.py 실행 시 한 개 GPU만 활용되므로 다중 GPU 또는 다중 노드 환경에서 계산 리소스를 활용하지 못한다.

Technical Solution

torch.distributed 활용: dist.init_process_group() 함수로 GPU 간 통신 그룹을 설정하고, DistributedDataParallel 모듈로 모델을 각 GPU에 복제하여 loss.backward() 수행 시 그래디언트를 자동 평균화
Accelerate 라이브러리 도입: torch.distributed를 래핑하여 단일 GPU 및 TPU 환경에서도 코드 수정 없이 실행 가능하게 지원하고, notebook_launcher를 제공하여 Jupyter 환경에서도 다중 프로세스 실행 지원
Trainer API 사용: TrainingArguments로 배치 크기(per_device_train_batch_size=64), 에포크 수(num_train_epochs=1), 검증 전략(evaluation_strategy="epoch")을 선언하고, Trainer 클래스를 상속하여 compute_loss() 메서드 재정의로 모든 분산 처리 자동화

Key Takeaway

단일 GPU 학습 코드에서 다중 GPU/다중 노드 분산 학습으로의 전환은 추상화 수준에 따라 torch.distributed의 저수준 제어, Accelerate의 경량 래퍼, Trainer의 고수준 자동화 중 선택할 수 있으며, 추상화 수준이 높을수록 보일러플레이트 코드 제거와 디바이스 호환성 확대 측면에서 이점을 얻는다.

실천 포인트

PyTorch MNIST 학습과 같은 단순 분산 학습 시나리오에서 Accelerate의 `notebook_launcher()`를 사용하면 기존 학습 함수를 변경 없이 2개 이상의 GPU에서 실행할 수 있고, Trainer API로 변환하면 `TrainingArguments`와 `Trainer` 상속으로 그래디언트 누적, 다중 디바이스 분산, 에포크당 검증까지 코드 50줄 이상 축약할 수 있다.

태그

#Trainer #Distributed Training #PyTorch #Accelerate #DDP

원문 읽기