Hugging Face가 초거대 언어모델(530B 파라미터) 중심 개발 패러다임을 거부하고 사전학습 모델 재사용·소형 모델·파인튜닝·모델 최적화 4가지 기법으로 실용적인 ML 솔루션 구축 권장

Large Language Models: A New Moore's Law?

2021년 10월 26일10분intermediate

AI 요약

Context

Microsoft와 NVIDIA의 Megatron-Turing NLG 530B 같은 초거대 언어모델은 $100 million 인프라 비용, 6.5 kilowatt GPU 전력 소비, 높은 탄소 배출량을 요구한다. 벤치마크 개선폭은 미미한 반면 비용, 복잡도, 환경 영향이 급증하는 악순환 구조이다.

Technical Solution

사전학습 모델(Pretrained Models) 재사용: 요구 작업에 맞춰 이미 학습된 모델을 우선 시도하고 성능이 충분하면 그대로 배포
소형 모델 우선 검토(Smaller Models): DistilBERT(원본 BERT 대비 40% 소형, 60% 빠름)처럼 필요한 정확도를 만족하는 최소 크기 모델 선정
파인튜닝(Fine-Tune Models): 처음부터 학습 대신 자체 데이터로 몇 epoch만 추가 학습해 모델 특화
모델 최적화(Optimize Your Models): Pruning(영향 작은 파라미터 제거), Fusion(레이어 병합), Quantization(32bit → 8bit 축소), Optimum/Infinity 같은 자동화 도구 활용

Impact

DistilBERT: 원본 대비 97% 언어이해능력 유지하면서 40% 모델 크기 감소, 60% 추론 속도 향상
T0 모델(Big Science 프로젝트): GPT-3 대비 16배 소형이면서 다수 작업에서 우수한 성능
SqueezeNet(2017): AlexNet 대비 50배 모델 크기 축소
BERT 학습 에너지: 왕복 미국 항공편 에너지량(2019 UMass 연구)

Key Takeaway

초거대 모델의 반복적 확대는 성능 향상에 대한 수익감소 현상을 야기한다. 대신 이미 존재하는 사전학습 모델에서 출발해 필요한 최소 크기의 모델을 파인튜닝하고 최적화하는 실용주의 접근이 비용, 환경, 접근성 측면에서 더 나은 결과를 만든다.

실천 포인트

ML 개발팀이 맨 처음부터 Transformer 모델을 전체 학습하려 할 때, Hugging Face의 사전학습 모델 중 가장 작은 버전(DistilBERT, DistilBART, T0 등)으로 시작해 자체 데이터 세트에 파인튜닝한 후 Optimum 라이브러리로 Quantization·Pruning을 적용하면 초거대 모델 대비 1/16 수준의 모델 크기에서도 경쟁 수준의 정확도를 달성할 수 있다.

태그

#Fine-Tuning #Knowledge_Distillation #Model_Optimization #Model_Efficiency #LLM

원문 읽기