Hugging Face Transformers와 Habana Gaudi를 활용해 BERT 사전학습 비용을 $2,075 대비 $1,650으로 25% 절감

Pre-Train BERT with Hugging Face Transformers and Habana Gaudi

2022년 8월 22일10분intermediate

AI 요약

Context

BERT 모델의 사전학습은 GPU 인프라에 높은 비용이 소요된다. 기존 GPU 기반 학습(NVIDIA V100 8개 × 2대)의 비용이 약 $2,075인 반면, 더 저렴한 대안이 필요했다.

Technical Solution

Hugging Face Transformers 라이브러리 활용: BertTokenizerFast를 사용해 Wikipedia와 BookCorpus 데이터셋으로부터 새로운 토크나이저 학습
데이터셋 준비: 두 개의 공개 데이터셋을 concatenate_datasets로 병합하고 개별 텍스트 필드만 추출하여 통합 데이터셋 구성
Habana Gaudi DL1 인스턴스 활용: AWS 상의 Gaudi 기반 하드웨어에서 Optimum Habana 라이브러리를 통해 분산 학습 수행
Trainer에서 GaudiTrainer로 마이그레이션: 기존 PyTorch Trainer 코드를 Habana 최적화 GaudiTrainer로 변경하여 하드웨어 특화 연산 활용
Masked Language Modeling(MLM) 사전학습: 문장의 단어를 마스킹하고 양방향 컨텍스트로부터 예측하는 원본 BERT 사전학습 작업 구현

Impact

총 학습 비용: $1,650 (GPU 기반 $2,075 대비 25% 감소)
DeepSpeed 미사용 GPU 기반 학습 추정 비용: $3,000~$4,000 (DeepSpeed 적용 시 성능 1.5~2배 향상으로 인한 예상치)

Key Takeaway

대규모 언어 모델 사전학습 시 전문 하드웨어(Habana Gaudi)와 프레임워크 최적화(GaudiTrainer)를 결합하면 GPU 기반 솔루션 대비 상당한 비용 절감이 가능하다. 기업의 도메인 특화 모델 구축을 위해서는 이러한 저비용 사전학습이 정확도 개선(일반 BERT 대비 최대 10%)의 기회를 제공한다.

실천 포인트

Hugging Face Transformers 기반의 BERT 사전학습을 수행하는 엔지니어는 GPU 대신 Habana Gaudi DL1 인스턴스 + Optimum Habana + GaudiTrainer 조합을 적용하면, 동일한 학습 성능을 약 25% 낮은 비용으로 달성할 수 있다. 특히 데이터셋 준비(Step 1~3)는 CPU 인스턴스(c6i.12xlarge 같은)에서 수행하고 실제 학습만 Gaudi 인스턴스로 진행하면 비용을 더욱 최적화할 수 있다.

태그

#Pre-training #Habana Gaudi #BERT #NLP #Hugging Face

원문 읽기