피드로 돌아가기
Visual Salamandra: Pushing the Boundaries of Multimodal Understanding
Hugging Face BlogHugging Face Blog
AI/ML

Language Technologies Lab이 SigLIP 인코더와 MLP 프로젝터를 Salamandra 7B LLM에 통합해 이미지·비디오 멀티모달 이해 능력 추가

Visual Salamandra: Pushing the Boundaries of Multimodal Understanding

2025년 4월 11일9intermediate

Context

기존 Salamandra는 텍스트만 처리하는 LLM으로, 이미지나 비디오 같은 시각 입력을 이해할 수 없었다. 멀티모달 AI 시스템 구축 시 시각과 텍스트 데이터를 통합 처리하는 것이 필수 요구사항이었다.

Technical Solution

  • 비전 인코더 통합: Google의 SigLIP-So400m 인코더(384x384 해상도, 14개 패치)를 사용해 이미지를 임베딩으로 변환
  • 모달 정렬 프로젝터: 2계층 MLP 프로젝터를 학습해 이미지 임베딩을 LLM의 잠재 공간에 매핑
  • 지연 융합 아키텍처(late-fusion) 적용: 사전학습된 인코더와 LLM을 연결하는 프로젝터만 초기 단계에서 학습
  • 4단계 훈련 프로세스 구현: (1) 프로젝터 사전훈련 → (2) 고품질 비전 사전훈련 → (3) 지시문 튜닝(VQA, OCR) → (4) 풀 멀티모달 튜닝(단일/복수 이미지, 비디오, 텍스트 혼합)
  • 다국어 데이터 통합: 유럽 언어를 포함한 다국어 지시 튜닝 데이터 적용
  • 훈련 데이터 규모: 610만 개의 지시 튜닝 인스턴스(텍스트 전용 84만 2천 개 포함) 사용, AI2D, Cambrian, LLaVA Next 등의 소스 활용

Key Takeaway

70억 파라미터 기반 모델의 컴팩트성을 유지하면서 독립적인 비전 인코더와 경량 프로젝터를 통해 멀티모달 능력을 추가한 설계는 기존 LLM 자산 재사용과 효율적 확장의 실제 사례를 제시한다. 4단계 훈련 전략과 다국어 데이터 통합은 복잡한 멀티모달 시스템 구축 시 단계적 학습과 언어 포용성의 중요성을 보여준다.


기존 텍스트 LLM을 멀티모달로 확장해야 하는 팀은 frozen 비전 인코더 + 경량 MLP 프로젝터 + 지연 융합 구조를 사용하면 전체 모델 재훈련 없이 단계적으로 시각 이해 능력을 추가할 수 있다. 특히 4단계 훈련 프로세스(프로젝터 사전훈련 → 고품질 비전 사전훈련 → 지시문 튜닝 → 멀티모달 혼합 튜닝)를 순차적으로 적용하면 수렴 안정성과 최종 성능을 동시에 개선할 수 있다.

원문 읽기