Hugging Face가 고품질 데이터셋 SmolLM-Corpus와 최적화된 프롬프트 전략으로 135M~1.7B 파라미터 소형 언어모델 3종을 개발해 같은 크기 범주 모델들을 벤치마크에서 능가

SmolLM - blazingly fast and remarkably powerful

2024년 7월 16일9분intermediate

AI 요약

Context

소형 언어모델은 로컬 디바이스에서 실행 가능하고 추론 비용을 절감할 수 있지만, 대부분 데이터 큐레이션과 훈련 상세 정보가 공개되지 않았다. 기존 소형 모델들(Phi, Qwen2, MobileLLM)은 좋은 성과를 보였으나 재현 가능한 데이터셋과 체계적 프롬프트 설계 방법론이 부족했다.

Technical Solution

Cosmopedia v1의 한계(불충분한 토픽 커버리지, 저품질 웹샘플)를 극복하기 위해 BISAC 책 분류법 기반 34,000개 토픽 리스트로 전환하고 Mixtral로 5,000개 기본 토픽에서 서브토픽 자동 생성
FineWeb CC-MAIN-2024-10과 CC-MAIN-2023-50 덤프(5억2천만 샘플)에서 각 토픽당 1,000개 검색 결과를 획득해 34백만 웹페이지를 매칭
SmolLM-Corpus를 Cosmopedia v2(Mixtral 생성 교과서 및 스토리, 28B 토큰) + Python-Edu(Stack의 교육용 Python 샘플, 4B 토큰) + FineWeb-Edu(중복 제거된 웹 교육 자료, 220B 토큰)로 구성
생성 스타일(타겟 오디언스, 콘텐츠 유형)을 1.8B 모델을 8B 토큰으로 훈련하는 절제 연구를 통해 최적화
WebInstructSub 퍼미시브 부분집합 + StarCoder2-Self-OSS-Instruct로 1 에포크 SFT 후 HelpSteer(135M, 1.7B) 또는 argilla/dpo-mix-7k(360M)를 이용한 1 에포크 DPO 수행
135M(20.7MB), 360M(99.4MB), 1.7B(1.4GB) 메모리 풋프린트로 설계해 iPhone 15(6GB DRAM) 이상의 디바이스에서 로컬 실행 지원
Transformers 체크포인트, ONNX 체크포인트, llama.cpp 호환 GGUF 버전(계획)을 제공하고 WebGPU 데모 구현

Impact

다양한 벤치마크(상식 추론, 세계 지식)에서 같은 크기 범주 다른 모델들을 능가
IFEval 벤치마크(프롬프트 스트릭트 정확도)에서 Qwen2-1.5B-Instruct 29.94 대비 SmolLM-Instruct 모델들이 공개 퍼미시브 데이터셋만으로 경쟁력 있는 성능 제공

Key Takeaway

소형 언어모델 개발에서 대규모 고품질 데이터 큐레이션과 체계적 프롬프트 설계가 모델 용량만큼 중요하며, 표준 분류법(BISAC)과 검색 기반 매칭을 결합하면 재현 가능하고 확장 가능한 합성 데이터셋을 구축할 수 있다.

실천 포인트

소형 언어모델 개발팀이 교육용 데이터에 집중하면서 BISAC 같은 표준 주제 분류를 기반으로 토픽을 정의하고, 대규모 웹 데이터베이스(FineWeb, Common Crawl)에서 관련성 높은 샘플을 검색 도구로 매칭한 후 강력한 생성 모델(Mixtral-8x7B 이상)로 합성 데이터를 생성하면, 공개 퍼미시브 데이터만으로도 비슷한 크기의 경쟁 모델을 능가하는 성능을 달성할 수 있다.

태그

#Data-Curation #Synthetic Data #LLM #Model Training #Edge-Deployment

원문 읽기