Encoder-free 설계를 통한 On-Device Multimodal Agent 구현

Gemma 4 12B Enables On-Device, Multimodal Agentic Workflows with an Encoder-free Architecture

Sergio De Simone2026년 6월 8일3분advanced

AI 요약

Context

기존 Multimodal 모델의 분리된 Vision/Audio Encoder 구조로 인한 Latency 증가 및 Memory Footprint 파편화 문제 발생. On-Device 환경의 제한된 리소스로 인해 다단계 처리 과정이 병목 지점으로 작용.

Unified Encoder-free Architecture 도입을 통한 Multimodal 데이터의 LLM 직접 입력 구조 설계
27-layer Vision Transformer를 35M-parameter Vision Embedder로 대체하여 단일 Matrix Multiplication 기반의 Hidden Space 투영 구현
Factorized X-Y Coordinate Lookup 적용을 통한 입력 단계의 Spatial Positional 정보 주입
별도 Encoder 없이 16 kHz Audio를 40 ms 프레임 단위로 분할하여 Linear Projection 수행
Multimodal 입력 간 가중치 공유 구조를 통한 LoRA 및 Full Tuning 효율성 극대화
Decoder-only Transformer 구조 채택으로 Gemma 4 31B Dense 모델의 고급 디코더 구조 계승

실천 포인트

1. On-Device AI 설계 시 별도 Encoder 제거를 통한 Memory Footprint 최적화 검토

2. 복잡한 전처리 단계 대신 Linear Projection을 통한 LLM Hidden Space 직접 투영 가능성 분석

3. Multimodal 데이터의 가중치 공유 설계를 통한 Fine-tuning 파이프라인 단순화 적용

태그