HuggingFace가 Vision Language Model을 256M 파라미터로 축소하면서 세계 최소 VLM 달성 및 비전 인코더·토크나이제이션·데이터 믹스 재설계

SmolVLM Grows Smaller – Introducing the 256M & 500M Models!

2025년 1월 23일9분intermediate

AI 요약

Context

SmolVLM 2B 출시 이후 커뮤니티에서 더욱 경량화된 모델에 대한 수요가 발생했으며, 제한된 기기, 소비자 노트북, 브라우저 기반 추론 환경에서 작동 가능한 VLM이 필요했다. 또한 대규모 데이터 처리 시 낮은 추론 비용으로 실행할 수 있는 모델이 요구되었다.

Technical Solution

비전 인코더를 SigLIP 400M SO(기존)에서 93M 파라미터의 SigLIP base patch-16/512로 변경: 성능 차이 최소화하면서 파라미터 규모 약 80% 감소
이미지 해상도 증대: 기존 1820 픽셀/토큰 대비 4096 픽셀/토큰으로 인코딩하도록 토크나이제이션 최적화
데이터 믹스 재조정: The Cauldron, Docmatix, MathWriting 데이터셋 비율을 문서 이해(41%)와 이미지 캡셔닝(14%)에 가중치 강화
특수 토큰 추가: 서브 이미지 구분자를 효율적으로 표현하기 위해 특수 토큰 도입
256M 및 500M 파라미터 모델 2개 체크포인트 추가 배포: 기본 모델 2개 + 명령어 미세조정 모델 2개 (Transformers, MLX, ONNX 형식 지원)

Impact

SmolVLM-256M은 현존 가장 작은 VLM으로서 17개월 전 출시한 Idefics 80B 성능을 초과했다. A100에서 배치 크기별 처리량 개선이 실현되었으며, SmolLM2 패밀리(135M, 360M, 1.7B)와의 모델 동등성(model parity)을 달성했다.

Key Takeaway

극도의 모델 축소 과정에서 비전 인코더 용량, 이미지 해상도, 토크나이제이션 전략을 동시에 재설계하는 것으로 기존 대규모 모델의 성능을 유지하면서도 엣지 디바이스 배포를 가능하게 했다. 학습 손실 악화에도 불구하고 실제 벤치마크 성능 향상을 달성한 토크나이제이션 트레이드오프가 핵심 설계 결정이다.

실천 포인트

엣지 디바이스나 브라우저 기반 추론이 필요한 환경에서 작동해야 하는 멀티모달 애플리케이션 개발 시, 256M 또는 500M 파라미터 SmolVLM을 도입하면 Transformers·MLX·ONNX 형식 지원으로 기존 워크플로우 통합이 간편하며 비전 인코더 축소와 이미지 해상도 증대 조합으로 시각 이해 성능을 유지하면서 추론 비용을 획기적으로 낮출 수 있다.

태그

#Vision Language Model #Parameter Efficiency #Model Compression #Tokenization

원문 읽기