피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
DeepSeek이 V3 기반 모델을 지속 사전학습 및 개선된 포스트트레이닝으로 벤치마크 점수 5.3~19.8점 상향
Open R1: Update #4
AI 요약
Context
DeepSeek-V3는 강력한 기초 모델이었지만, 명령어 따르기, 코드 생성, 수학 문제 해결 능력에서 개선의 여지가 있었다. 또한 이전 버전의 함수 호출 정확도 문제와 중국어 작성 품질 향상이 필요했다.
Technical Solution
- 지속 사전학습(Continual Pretraining): 기존 V3 모델을 기반으로 더 최신의 고품질 큐레이션 데이터로 추가 사전학습 수행
- 포스트트레이닝 파이프라인 개선: 명령어 따르기와 스타일 정렬을 위한 포스트트레이닝 데이터 혼합 최적화
- MIT 라이선스 전환: 이전 커스텀 모델 라이선스에서 MIT 라이선스로 변경하여 사용 자유도 확대
- 특정 영역 타겟팅: 프론트엔드 웹개발 실행 가능성, 중국어 작문 품질, 함수 호출 정확도에 집중적 개선
- 모델 아키텍처 유지: 기존 DeepSeek-V3와 동일한 아키텍처 유지로 호환성 보장
Impact
- MMLU-Pro: 75.9 → 81.2 (+5.3점)
- GPQA: 59.1 → 68.4 (+9.3점)
- AIME: 39.6 → 59.4 (+19.8점)
- LiveCodeBench: 39.2 → 49.2 (+10.0점)
Key Takeaway
기초 모델의 아키텍처를 유지하면서 지속 사전학습과 타겟팅된 포스트트레이닝으로 특정 능력을 선택적으로 강화할 수 있다는 것을 보여준다. 이는 큰 규모의 재학습 없이도 모델 성능을 단계적으로 개선할 수 있는 효율적인 접근법이다.
실천 포인트
대규모 언어 모델을 운영하는 팀에서 기존 체크포인트 기반으로 지속 사전학습과 개선된 포스트트레이닝 데이터를 적용하면, 전체 재학습 비용을 절감하면서도 특정 작업 영역(수학, 코딩, 함수 호출 등)의 성능을 5~20점 범위로 향상시킬 수 있다.