피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
15T 토큰과 5단계 데이터 정제 기반의 고밀도 Dense LLM 설계
Granite 4.1 LLMs: How They’re Built
AI 요약
Context
단순한 모델 파라미터 확장보다 데이터 큐레이션의 정밀도가 소형 모델 성능 결정의 핵심임을 인지. 기존 MoE 구조의 복잡성을 배제하고 Dense 아키텍처 기반으로 효율적인 성능 도출을 목표로 설정.
Technical Solution
- GQA, RoPE, SwiGLU, RMSNorm을 채택한 Decoder-only Dense Transformer 구조 설계
- 일반 웹 데이터에서 도메인 특화 데이터로 점진적으로 전이하는 5단계 Pre-training 파이프라인 구축
- Reasoning 능력 강화를 위해 Phase 2에서 Math(35%) 및 Code(30%) 데이터 비중을 대폭 상향
- CoT(Chain-of-Thought)와 Synthetic 데이터를 결합한 High-Quality Data Annealing 공정 적용
- 4K에서 512K까지 단계적 확장 후 모델 머지를 수행하는 Long-Context Extension 전략 도입
- GRPO 및 DAPO Loss를 활용한 On-policy Reinforcement Learning으로 정밀 튜닝 수행
실천 포인트
1. 데이터셋 구성 시 일반-특화-정제 데이터 순의 단계적 학습 스케줄 검토
2. Long-context 확장 시 성능 저하 방지를 위해 단계적 확장 후 Model Merge 기법 적용
3. 소형 모델 설계 시 GQA와 RoPE 등 최신 효율적 Attention 메커니즘 우선 고려