Hugging Face가 2B 파라미터 Vision Language Model(SmolVLM)을 개발해 대규모 모델 대비 9배 압축된 시각 정보 처리로 Colab에서 미세조정 가능한 구조 구현

SmolVLM - small yet mighty Vision Language Model

2024년 11월 26일9분intermediate

AI 요약

Context

비전 랭귀지 모델(VLM)이 대규모화되면서 배포 비용 증가, 엣지 기기 호환성 저하, 사용자 커스터마이징 제약이 발생했다. 기존 대규모 모델들은 로컬 환경이나 브라우저 기반 배포가 어려웠고 추론 비용이 높았다.

Technical Solution

언어 백본 변경: Llama 3.1 8B 대신 SmolLM2 1.7B 도입해 전체 모델을 2B 파라미터로 축소
시각 정보 압축 전략: Pixel shuffle 방식으로 패치된 시각 정보를 4배(Idefics3) 대비 9배 압축
패치 크기 최적화: 364×364에서 384×384로 변경하고 inner patch를 14×14 크기로 설정해 pixel shuffle 호환성 확보
Vision backbone 변경: SigLIP을 384×384 패치 크기에 최적화된 구현으로 교체
미세조정 인프라: QLoRA(8-bit 로딩) + Gradient Checkpointing으로 L4 GPU 메모리 약 16GB 소비 수준으로 감소, TRL 통합을 통해 Direct Preference Optimization(DPO) CLI 기반 실행 지원
오픈소스 배포: 3가지 모델 변형(Base, Synthetic, Instruct) 및 학습 데이터세트(Cauldron, Docmatix), 감독형 미세조정 스크립트를 Apache 2.0 라이선스로 공개

Impact

Colab 환경에서 L4 GPU를 사용한 미세조정 가능 (메모리 사용량 약 16GB)

Key Takeaway

소형 VLM 개발 시 언어 백본 축소와 패치 기반 시각 정보 압축 전략을 조합하면, 대규모 모델 대비 극적인 메모리 감소로 소비자급 하드웨어에서의 배포와 커스터마이징을 동시에 달성할 수 있다.

실천 포인트

에지 디바이스나 제한된 리소스 환경에서 VLM 기반 애플리케이션을 배포해야 하는 팀에서는 SmolVLM-Instruct를 기준 모델로 선택하고, QLoRA + Gradient Checkpointing을 적용한 미세조정 파이프라인을 통해 Colab이나 개발자 PC의 일반 GPU에서 도메인 특화 모델을 구축할 수 있다.

태그

#Open Source #Vision Language Model #QLoRA #Pixel Shuffle #Model Compression

원문 읽기