피드로 돌아가기
Vision Language Models (Better, faster, stronger)
Hugging Face BlogHugging Face Blog
AI/ML

Vision Language Models 커뮤니티가 Any-to-Any 아키텍처, 추론 능력, 256M~2.2B 소형 모델로 진화하며 다중모달 AI의 범위와 효율성 동시 확대

Vision Language Models (Better, faster, stronger)

2025년 5월 12일12intermediate

Context

지난 1년간 Vision Language Models는 LLaVA 이후 급속한 변화를 겪었다. 기존 단순 이미지-텍스트 이해 수준에서 벗어나 더 복잡한 작업 수행이 요구되었다. 동시에 클라우드 GPU 비용 증가로 인해 소형 모델에서도 실질적 성능을 내기 위한 기술 개선이 필수화되었다.

Technical Solution

  • Any-to-Any 아키텍처 도입: 여러 인코더(이미지, 텍스트, 오디오용)와 공유 임베딩 공간으로 설계해 입출력 모달리티 간 자유로운 변환 지원(Qwen2.5-Omni의 "Thinker-Talker" 구조, MiniCPM-o 2.6의 8B 멀티모달 모델)
  • Mixture-of-Experts 디코더 적용: Kimi-VL-A3B-Thinking에서 16B 총 파라미터 중 2.8B만 활성화하는 MoE 방식으로 계산 비용 절감
  • 추론 능력 강화를 위한 체인-오브-생각 파인튜닝: QVQ-72B-preview, Kimi-VL-A3B-Thinking에서 복잡한 문제 해결 능력 추가
  • 소형 모델 포커스: SmolVLM2에서 256M, 500M, 2.2B 파라미터 크기로 비디오 이해 구현, gemma3-4b-it에서 128k 토큰 컨텍스트 윈도우와 140+ 언어 지원
  • 멀티모달 검색 및 에이전트 패러다임: 기존 단일 모달 구조에서 multimodal RAG, multimodal agents로 확장

Impact

SmolVLM2에서 500M 모델을 iPhone 애플리케이션(HuggingSnap)에서 실행 가능하게 구현. gemma3-4b-it가 최소 파라미터로 128k 토큰 컨텍스트 지원. 기존 큰 모델 증가 추세에서 벗어나 256M 수준 초소형 모델도 비디오 이해 가능.

Key Takeaway

Vision Language Models의 진화는 파라미터 증가 포화 이후 아키텍처 혁신(Any-to-Any, MoE)과 학습 방법 개선(추론 파인튜닝, 합성 데이터)으로 전환되고 있다. 소형 모델도 고급 기능을 수행할 수 있게 되어 온디바이스 배포와 프라이버시 보호가 현실화되었다.


멀티모달 애플리케이션 개발팀이 소형 VLM(256M~2.2B)을 도입하면 클라우드 GPU 비용을 절감하면서도 이미지 이해, 비디오 처리, OCR을 온디바이스 환경(모바일, 엣지 기기)에서 실행할 수 있다. 특히 Any-to-Any 아키텍처를 참고하면 이미지 입력으로 음성 출력을 생성하는 등 서로 다른 모달리티 간 변환이 필요한 서비스를 단일 모델로 구축 가능하다.

원문 읽기