Hugging Face가 256M~2.2B 파라미터의 SmolVLM2 모델 3종을 출시해 스마트폰부터 서버까지 모든 기기에서 비디오 이해 기능 실행 가능

SmolVLM2: Bringing Video Understanding to Every Device

2025년 2월 20일10분intermediate

AI 요약

Context

기존 비디오 이해 모델들은 대규모 컴퓨팅 자원을 필요로 해 모바일 기기나 엣지 디바이스에서 실행이 불가능했다. 비디오 언어 모델의 체계적인 벤치마킹 부재로 소형 모델의 성능을 정량적으로 평가하기 어려웠다.

SmolVLM2-500M이 SmolVLM2-2.2B 수준의 비디오 이해 능력을 파라미터 1/4 이하로 달성. SmolVLM2-256M은 기존 출시된 최소 비디오 언어 모델 경계 확대. Google Colab 무료 티어에서 2.2B 모델 실행 가능.

소형 다중모달 모델의 성능과 부하의 트레이드오프는 신중한 데이터 혼합 전략과 벤치마크 기반 최적화로 해결 가능하다. 엣지 기기 배포 요구사항이 있을 때 파라미터 크기별 모델군을 제공하면 사용자가 리소스 제약에 맞는 선택을 할 수 있다.

실천 포인트

모바일 앱이나 엣지 디바이스에서 비디오 분석 기능이 필요한 경우, SmolVLM2-500M 또는 256M 모델을 MLX 프레임워크로 로컬 배포하면 클라우드 API 호출 없이 저지연·오프라인 추론이 가능하다. 또한 기존

2.2B 모델로 수집한 파인튜닝 데이터셋을 더 소형 변형에 적용할 때 전체 파라미터 파인튜닝(QLoRA 대신)을 적용하면 제한된 메모리에서 최대 성능을 얻을 수 있다.

태그