TII가 1024개 H100 GPU로 14조 토큰 학습 및 깊이 확장·지식 증류 기법으로 10B 이하 소형 LLM 5개 모델군 출시, 13B 미만 카테고리에서 최고 성능 달성

Welcome to the Falcon 3 Family of Open Models!

2024년 12월 17일12분intermediate

AI 요약

Context

소형 언어 모델(10B 미만)에서 높은 성능과 학습 효율성을 동시에 달성하기 어려웠으며, 과학·수학·코드 이해 능력이 제한적이었다.

Technical Solution

대규모 단일 사전학습: 7B 모델에 대해 1024개 H100 GPU를 사용하여 웹·코드·STEM·고품질 다국어 데이터 14조 토큰으로 단일 대규모 사전학습 실행
깊이 확장을 통한 추론 성능 향상: 7B 모델의 중복 계층을 복제한 후 고품질 데이터 2조 토큰으로 지속 학습하여 10B 모델로 확장
지식 증류 기반 소형 모델 개발: 가지치기와 지식 증류 기법으로 1B·3B 모델을 100GT 미만의 고품질 데이터로 학습
상태 공간 모델 강화: Falcon Mamba 7B를 1.5조 토큰의 고품질 데이터로 추가 학습하여 추론·수학 능력 향상
다중 양자화 변형 제공: Instruct, GGUF, GPTQ-Int4, GPTQ-Int8, AWQ, 1.58-bit 등 다양한 변형으로 유연성 확보

Impact

Falcon3-1B-Base: SmolLM2-1.7B 초과, gemma-2-2b 동등 수준 성능
Falcon3-3B-Base: Llama-3.1-8B, Minitron-4B-Base 같은 대규모 모델 초과
Falcon3-7B-Base: Qwen2.5-7B와 동등 수준, 9B 미만 카테고리 최상위
Falcon3-10B-Base: 13B 미만 카테고리 최고 성능, MATH-Lvl5에서 22.9점, GSM8K에서 83.0점, MBPP에서 73.8점
Falcon3-7B-Base: BBH에서 51.0점, MMLU에서 67.4점, MMLU-PRO에서 39.2점
Falcon3-10B-Base: BBH에서 59.7점, MMLU에서 73.1점, MMLU-PRO에서 42.5점
모든 Transformer 기반 Falcon3 모델: Llama 아키텍처 호환
Falcon3-Mamba-7B: 32K 토큰 컨텍스트 길이 지원, 7B 규모 상태 공간 언어 모델 중 최고 성능
Falcon3-10B-Instruct: BFCL에서 86.3점, IFEval에서 78점, 13B 미만 모든 Instruct 모델 초과

Key Takeaway

사전학습 효율성(지식 증류, 깊이 확장)과 고품질 데이터 집중 사용으로 소형 모델에서도 대규모 모델 수준의 성능을 달성할 수 있으며, Llama 아키텍처 호환성 유지로 생태계 통합 용이성을 확보하는 것이 오픈 모델의 실용화 핵심이다.

실천 포인트

소형 LLM 배포가 필요한 환경(엣지 디바이스, 리소스 제약 시스템)에서 Falcon3-7B 또는 10B 모델을 도입하면 Llama 호환성으로 기존 통합 파이프라인 재사용 가능하며, 지식 증류 기법을 자체 모델에 적용하면 학습 비용 대비 13B 대규모 모델 수준의 추론·수학·코드 성능을 달성할 수 있다.

태그

#Transformer #Model Compression #State Space Model #Knowledge Distillation #LLM

원문 읽기