Encoder-free 구조로 16GB VRAM에서 구동되는 12B 멀티모달 모델

Introducing Gemma 4 12B: a unified, encoder-free multimodal model

Olivier Lacombe2026년 6월 5일3분advanced

AI 요약

Context

기존 Multimodal 모델의 분리된 Encoder 구조로 인한 지연 시간 증가와 메모리 사용량 확대 문제 발생. 특히 Edge 환경의 하드웨어 제약으로 인해 고성능 추론과 경량화 사이의 Trade-off 해결이 필요함.

별도의 Encoder 없이 Vision/Audio 입력을 LLM Backbone으로 직접 전달하는 Unified Architecture 설계
Vision Encoder를 단일 Matrix Multiplication, Positional Embedding, Normalization으로 구성된 경량 Embedding Module로 대체
Audio Encoder를 완전히 제거하고 Raw Audio Signal을 Text Token과 동일한 Dimensional Space로 직접 Projecting 하는 방식 채택
Multi-Token Prediction(MTP) Drafter를 탑재하여 Inference Latency 최소화
26B MoE 모델의 성능을 유지하면서 메모리 풋프린트를 절반 이하로 축소한 파라미터 최적화

실천 포인트

1. Edge AI 설계 시 별도 Encoder 도입 전 Embedding Layer 수준의 단순 투영 가능 여부 검토

2. 추론 속도 개선을 위해 Speculative Decoding 또는 MTP 기반의 Drafter 구조 적용 고려

3. 로컬 배포 타겟 하드웨어의 VRAM 제약 사항에 따른 모델 파라미터 및 메모리 풋프린트 정밀 산출

태그