HuggingFace가 SmolLM3 3B 모델의 아키텍처와 11.2T 토큰 학습 레시피를 공개해 Llama-3.2-3B, Qwen2.5-3B 대비 성능 우위 달성

SmolLM3: smol, multilingual, long-context reasoner

2025년 7월 8일12분intermediate

AI 요약

Context

소규모 언어 모델의 효율성 있는 배포 필요성이 증대되고 있으며, 3B 규모에서 경쟁력 있는 성능을 달성하기 위한 아키텍처 최적화 방안이 필요했다.

Technical Solution

멀티헤드 어텐션을 Grouped Query Attention(GQA) 4 그룹으로 변경: 100B 토큰 학습 실험에서 멀티헤드 어텐션과 동일한 성능을 유지하면서 추론 시 KV 캐시 크기 대폭 감소
NoPE 기법 적용: 4번째 레이어마다 RoPE(Rotary Position Embeddings) 선택적 제거로 128k 길이 컨텍스트 처리 성능 향상, 단문 컨텍스트 성능은 유지
Intra-Document Masking 도입: 학습 시 동일 시퀀스 내 서로 다른 문서의 토큰 간 어텐션을 차단해 긴 컨텍스트 학습 안정성 개선
임베딩 레이어의 가중치 감소(Weight Decay) 제거: 임베딩 노름이 자연스럽게 안정적인 값으로 수렴하도록 해 학습 안정성 향상
3단계 프리트레이닝 전략 적용: Stage 1(0→8T 토큰, 웹 85% + 코드 12% + 수학 3%)→ Stage 2(8→10T 토큰, 수학/코드 비중 증가)→ Stage 3(10→11.2T 토큰, 고품질 데이터 집중)으로 단계별 데이터 구성 변경
멀티링가 지원 확대: 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 포르투갈어 6개 언어에 대한 모델 학습, Stage 1에서 웹 데이터의 12%를 멀티링가 콘텐츠로 구성
추론 모드 이중화: think/no_think 모드 지원으로 사용자가 추론 방식을 선택 가능

Impact

3B 규모에서 Llama-3.2-3B, Qwen2.5-3B 대비 성능 우위 달성 및 4B 모델(Qwen3, Gemma3)과 경쟁 가능 수준 도달, 384개 H100 GPU에서 24일간 11.2T 토큰 학습 완료

Key Takeaway

소규모 모델의 경쟁력 있는 성능은 단순 스케일 증가보다 아키텍처 선택(GQA, NoPE), 데이터 혼합 비율 최적화, 학습 안정성 기법의 조합으로 달성 가능하며, 공개된 상세 학습 레시피는 다른 팀의 모델 개발 기간을 수개월 단축할 수 있다.

실천 포인트

소규모 언어 모델을 개발하는 팀에서 Grouped Query Attention(GQA)으로 어텐션 메커니즘을 단순화하고, 3단계 프리트레이닝에서 웹-수학-코드 데이터 비율을 점진적으로 조정하며, NoPE로 위치 임베딩을 선택적으로 제거하면 멀티헤드 어텐션 모델 수준의 성능을 유지하면서 추론 비용과 학습 시간을 동시에 감소시킬 수 있다.

태그

#Language Model #Long-Context #GQA #Architecture Optimization #Training Recipe

원문 읽기