DeepSeek이 V3 기반 모델을 지속 사전학습 및 개선된 포스트트레이닝으로 벤치마크 점수 5.3~19.8점 상향

Open R1: Update #4

2025년 3월 26일12분intermediate

AI 요약

Context

DeepSeek-V3는 강력한 기초 모델이었지만, 명령어 따르기, 코드 생성, 수학 문제 해결 능력에서 개선의 여지가 있었다. 또한 이전 버전의 함수 호출 정확도 문제와 중국어 작성 품질 향상이 필요했다.

기초 모델의 아키텍처를 유지하면서 지속 사전학습과 타겟팅된 포스트트레이닝으로 특정 능력을 선택적으로 강화할 수 있다는 것을 보여준다. 이는 큰 규모의 재학습 없이도 모델 성능을 단계적으로 개선할 수 있는 효율적인 접근법이다.

실천 포인트

대규모 언어 모델을 운영하는 팀에서 기존 체크포인트 기반으로 지속 사전학습과 개선된 포스트트레이닝 데이터를 적용하면, 전체 재학습 비용을 절감하면서도 특정 작업 영역(수학, 코딩, 함수 호출 등)의 성능을 5~20점 범위로 향상시킬 수 있다.

태그