피드로 돌아가기
SmolVLM2: Bringing Video Understanding to Every Device
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face가 256M~2.2B 파라미터의 SmolVLM2 모델 3종을 출시해 스마트폰부터 서버까지 모든 기기에서 비디오 이해 기능 실행 가능

SmolVLM2: Bringing Video Understanding to Every Device

2025년 2월 20일10intermediate

Context

기존 비디오 이해 모델들은 대규모 컴퓨팅 자원을 필요로 해 모바일 기기나 엣지 디바이스에서 실행이 불가능했다. 비디오 언어 모델의 체계적인 벤치마킹 부재로 소형 모델의 성능을 정량적으로 평가하기 어려웠다.

Technical Solution

  • 모델 크기별 3가지 변형 출시: 256M, 500M, 2.2B 파라미터 모델로 기기 사양에 맞는 선택지 제공
  • Video-MME 벤치마크 기준 성능 최적화: 2B 범위에서 기존 모델들을 초과, 500M/256M 범위에서 최고 성능 달성
  • 데이터 혼합 전략 적용: Apollo 연구의 비디오/이미지 학습 비율 조정으로 두 분야 균형 달성
  • 추론 프레임워크 통합: Transformers, MLX(Python/Swift API) 지원으로 크로스플랫폼 배포 용이
  • 실제 애플리케이션 구현: iPhone 로컬 앱, VLC 미디어 플레이어 통합, 비디오 하이라이트 생성기 제공

Impact

SmolVLM2-500M이 SmolVLM2-2.2B 수준의 비디오 이해 능력을 파라미터 1/4 이하로 달성. SmolVLM2-256M은 기존 출시된 최소 비디오 언어 모델 경계 확대. Google Colab 무료 티어에서 2.2B 모델 실행 가능.

Key Takeaway

소형 다중모달 모델의 성능과 부하의 트레이드오프는 신중한 데이터 혼합 전략과 벤치마크 기반 최적화로 해결 가능하다. 엣지 기기 배포 요구사항이 있을 때 파라미터 크기별 모델군을 제공하면 사용자가 리소스 제약에 맞는 선택을 할 수 있다.


모바일 앱이나 엣지 디바이스에서 비디오 분석 기능이 필요한 경우, SmolVLM2-500M 또는 256M 모델을 MLX 프레임워크로 로컬 배포하면 클라우드 API 호출 없이 저지연·오프라인 추론이 가능하다. 또한 기존

2.2B 모델로 수집한 파인튜닝 데이터셋을 더 소형 변형에 적용할 때 전체 파라미터 파인튜닝(QLoRA 대신)을 적용하면 제한된 메모리에서 최대 성능을 얻을 수 있다.

원문 읽기