피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Vision Language Models 커뮤니티가 Any-to-Any 아키텍처, 추론 능력, 256M~2.2B 소형 모델로 진화하며 다중모달 AI의 범위와 효율성 동시 확대
Vision Language Models (Better, faster, stronger)
AI 요약
Context
지난 1년간 Vision Language Models는 LLaVA 이후 급속한 변화를 겪었다. 기존 단순 이미지-텍스트 이해 수준에서 벗어나 더 복잡한 작업 수행이 요구되었다. 동시에 클라우드 GPU 비용 증가로 인해 소형 모델에서도 실질적 성능을 내기 위한 기술 개선이 필수화되었다.
Technical Solution
- Any-to-Any 아키텍처 도입: 여러 인코더(이미지, 텍스트, 오디오용)와 공유 임베딩 공간으로 설계해 입출력 모달리티 간 자유로운 변환 지원(Qwen2.5-Omni의 "Thinker-Talker" 구조, MiniCPM-o 2.6의 8B 멀티모달 모델)
- Mixture-of-Experts 디코더 적용: Kimi-VL-A3B-Thinking에서 16B 총 파라미터 중 2.8B만 활성화하는 MoE 방식으로 계산 비용 절감
- 추론 능력 강화를 위한 체인-오브-생각 파인튜닝: QVQ-72B-preview, Kimi-VL-A3B-Thinking에서 복잡한 문제 해결 능력 추가
- 소형 모델 포커스: SmolVLM2에서 256M, 500M, 2.2B 파라미터 크기로 비디오 이해 구현, gemma3-4b-it에서 128k 토큰 컨텍스트 윈도우와 140+ 언어 지원
- 멀티모달 검색 및 에이전트 패러다임: 기존 단일 모달 구조에서 multimodal RAG, multimodal agents로 확장
Impact
SmolVLM2에서 500M 모델을 iPhone 애플리케이션(HuggingSnap)에서 실행 가능하게 구현. gemma3-4b-it가 최소 파라미터로 128k 토큰 컨텍스트 지원. 기존 큰 모델 증가 추세에서 벗어나 256M 수준 초소형 모델도 비디오 이해 가능.
Key Takeaway
Vision Language Models의 진화는 파라미터 증가 포화 이후 아키텍처 혁신(Any-to-Any, MoE)과 학습 방법 개선(추론 파인튜닝, 합성 데이터)으로 전환되고 있다. 소형 모델도 고급 기능을 수행할 수 있게 되어 온디바이스 배포와 프라이버시 보호가 현실화되었다.
실천 포인트
멀티모달 애플리케이션 개발팀이 소형 VLM(256M~2.2B)을 도입하면 클라우드 GPU 비용을 절감하면서도 이미지 이해, 비디오 처리, OCR을 온디바이스 환경(모바일, 엣지 기기)에서 실행할 수 있다. 특히 Any-to-Any 아키텍처를 참고하면 이미지 입력으로 음성 출력을 생성하는 등 서로 다른 모달리티 간 변환이 필요한 서비스를 단일 모델로 구축 가능하다.