Hugging Face 팀이 DeDLOC 알고리즘으로 인터넷 연결된 40명의 자원봉사자 GPU를 활용해 벵골어 언어모델 sahajBERT를 학습시킨 대규모 분산 협업 훈련 성공 사례

Deep Learning over the Internet: Training Language Models Collaboratively

2021년 7월 15일12분advanced

AI 요약

Context

대규모 언어모델 사전학습에는 수십 개에서 수백 개의 GPU/TPU가 필요하며, BERT 학습 비용이 약 7,000달러, GPT-3는 1,200만 달러에 이른다. 인터넷을 통한 분산 훈련은 그래디언트 집계 시 네트워크 대역폭 부족과 참여자의 불규칙한 연결 끊김으로 인해 실패 위험이 높았다.

Technical Solution

배치 누적을 활용한 그래디언트 동기화: N개 배치의 그래디언트를 누적해 한 번에 평균화함으로써 동기화 횟수 감소 및 큰 배치 크기 구현
자동 네트워크/하드웨어 제약 적응: DeDLOC 알고리즘이 각 참여자의 연결 속도와 하드웨어 사양에 맞춰 자동으로 배치 크기와 학습 파라미터 조정
내재적 결함 허용성: 참여자 이탈 시 해당 기여도를 현재 누적 배치 크기에서 제외하고 다른 참여자의 그래디언트로 자동 보상
지역 클러스터와 개별 게임 GPU 통합: 40명의 개별 참여자(개인 PC, 노트북 포함)와 소규모 랩 클러스터를 동일한 훈련 시스템으로 통합

Impact

벵골어 sahajBERT 모델이 수백 개의 고성능 가속기를 사용한 대규모 모델과 비교 가능한 수준의 성능을 달성했다.

Key Takeaway

분산 딥러닝의 네트워크 대역폭 병목은 그래디언트 누적으로 동기화 빈도를 줄이면 해결 가능하며, 다중 언어 NLP 커뮤니티가 중앙집중식 계산 자원 없이도 자체 모델 학습이 가능함을 실증했다.

실천 포인트

다국어 NLP 커뮤니티나 리소스 제한된 조직에서 DeDLOC의 그래디언트 누적 및 자동 적응 메커니즘을 적용하면, 개별 게이밍 GPU와 소규모 클러스터를 함께 활용해 사전학습 비용을 대폭 절감하고 커뮤니티 기반 모델 학습을 현실화할 수 있다.

태그

#Distributed Training #Collaborative Learning #Gradient Accumulation #Language Models #DeDLOC

원문 읽기