피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
BigScience 프로젝트가 70개국 1000명 이상의 연구자를 협력시켜 1760억 파라미터 규모의 다국어 BLOOM 모델을 오픈소스로 공개
Introducing The World's Largest Open Multilingual Language Model: BLOOM
AI 요약
Context
대규모 언어 모델(LLM)은 산업 연구소의 독점적 접근으로 인해 학계, 비영리기관, 중소 연구 기관의 연구 및 활용이 제한되었다. 기존 LLM들은 폐쇄적 환경에서 개발되어 투명성과 접근성이 부족했다.
Technical Solution
- Jean Zay 슈퍼컴퓨터에서 117일간(2022년 3월 11일~7월 6일) 분산 학습 실행: FLAX 프레임워크 기반 병렬 학습
- 176억 개 파라미터 규모의 다국어 모델 학습: 46개 자연언어와 13개 프로그래밍 언어 지원
- Responsible AI License 기반의 공개 배포: 개인 및 기관이 로컬 또는 클라우드에서 다운로드·활용 가능
- 학습 중간 체크포인트 및 옵티마이저 상태 공개: 모델 개발 과정의 완전한 투명성 제공
- Google TPU 기반 추론 API 제공: 8개 A100 GPU 없이도 웹 기반 테스트 및 프로토타이핑 가능
Impact
스페인어, 프랑스어, 아랍어 등 대부분의 언어에서 1억 파라미터 이상 규모의 첫 번째 언어 모델 달성.
Key Takeaway
대규모 모델의 개방과 투명성은 개별 기관의 리소스 제약을 극복하는 협력적 접근 방식으로, 학술 생태계 전체가 최신 LLM 기술을 직접 연구하고 실험할 수 있는 기반을 제공한다.
실천 포인트
LLM 기술에 접근이 제한된 중소 연구 기관이나 스타트업에서는 BLOOM의 공개 체크포인트와 사전학습된 가중치를 기반으로 도메인 특화 모델을 미세조정하면 수십억 파라미터 모델을 처음부터 학습해야 하는 인프라 비용과 시간을 극적으로 절감할 수 있다.