피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Hugging Face Transformers와 Habana Gaudi를 활용해 BERT 사전학습 비용을 $2,075 대비 $1,650으로 25% 절감
Pre-Train BERT with Hugging Face Transformers and Habana Gaudi
AI 요약
Context
BERT 모델의 사전학습은 GPU 인프라에 높은 비용이 소요된다. 기존 GPU 기반 학습(NVIDIA V100 8개 × 2대)의 비용이 약 $2,075인 반면, 더 저렴한 대안이 필요했다.
Technical Solution
- Hugging Face Transformers 라이브러리 활용: BertTokenizerFast를 사용해 Wikipedia와 BookCorpus 데이터셋으로부터 새로운 토크나이저 학습
- 데이터셋 준비: 두 개의 공개 데이터셋을 concatenate_datasets로 병합하고 개별 텍스트 필드만 추출하여 통합 데이터셋 구성
- Habana Gaudi DL1 인스턴스 활용: AWS 상의 Gaudi 기반 하드웨어에서 Optimum Habana 라이브러리를 통해 분산 학습 수행
- Trainer에서 GaudiTrainer로 마이그레이션: 기존 PyTorch Trainer 코드를 Habana 최적화 GaudiTrainer로 변경하여 하드웨어 특화 연산 활용
- Masked Language Modeling(MLM) 사전학습: 문장의 단어를 마스킹하고 양방향 컨텍스트로부터 예측하는 원본 BERT 사전학습 작업 구현
Impact
- 총 학습 비용: $1,650 (GPU 기반 $2,075 대비 25% 감소)
- DeepSpeed 미사용 GPU 기반 학습 추정 비용: $3,000~$4,000 (DeepSpeed 적용 시 성능 1.5~2배 향상으로 인한 예상치)
Key Takeaway
대규모 언어 모델 사전학습 시 전문 하드웨어(Habana Gaudi)와 프레임워크 최적화(GaudiTrainer)를 결합하면 GPU 기반 솔루션 대비 상당한 비용 절감이 가능하다. 기업의 도메인 특화 모델 구축을 위해서는 이러한 저비용 사전학습이 정확도 개선(일반 BERT 대비 최대 10%)의 기회를 제공한다.
실천 포인트
Hugging Face Transformers 기반의 BERT 사전학습을 수행하는 엔지니어는 GPU 대신 Habana Gaudi DL1 인스턴스 + Optimum Habana + GaudiTrainer 조합을 적용하면, 동일한 학습 성능을 약 25% 낮은 비용으로 달성할 수 있다. 특히 데이터셋 준비(Step 1~3)는 CPU 인스턴스(c6i.12xlarge 같은)에서 수행하고 실제 학습만 Gaudi 인스턴스로 진행하면 비용을 더욱 최적화할 수 있다.