피드로 돌아가기
InfoQAI/ML
원문 읽기
Encoder-free 설계를 통한 On-Device Multimodal Agent 구현
Gemma 4 12B Enables On-Device, Multimodal Agentic Workflows with an Encoder-free Architecture
AI 요약
Context
기존 Multimodal 모델의 분리된 Vision/Audio Encoder 구조로 인한 Latency 증가 및 Memory Footprint 파편화 문제 발생. On-Device 환경의 제한된 리소스로 인해 다단계 처리 과정이 병목 지점으로 작용.
Technical Solution
- Unified Encoder-free Architecture 도입을 통한 Multimodal 데이터의 LLM 직접 입력 구조 설계
- 27-layer Vision Transformer를 35M-parameter Vision Embedder로 대체하여 단일 Matrix Multiplication 기반의 Hidden Space 투영 구현
- Factorized X-Y Coordinate Lookup 적용을 통한 입력 단계의 Spatial Positional 정보 주입
- 별도 Encoder 없이 16 kHz Audio를 40 ms 프레임 단위로 분할하여 Linear Projection 수행
- Multimodal 입력 간 가중치 공유 구조를 통한 LoRA 및 Full Tuning 효율성 극대화
- Decoder-only Transformer 구조 채택으로 Gemma 4 31B Dense 모델의 고급 디코더 구조 계승
실천 포인트
1. On-Device AI 설계 시 별도 Encoder 제거를 통한 Memory Footprint 최적화 검토
2. 복잡한 전처리 단계 대신 Linear Projection을 통한 LLM Hidden Space 직접 투영 가능성 분석
3. Multimodal 데이터의 가중치 공유 설계를 통한 Fine-tuning 파이프라인 단순화 적용