Google이 Gemma 3n 모델을 오픈소스 생태계에 공개해 2GB GPU 메모리만으로 5B 파라미터 모델 실행 가능

Gemma 3n fully available in the open-source ecosystem!

2025년 6월 26일12분intermediate

AI 요약

Context

온디바이스 AI 모델 실행 시 GPU 메모리 제약이 큰 문제였으며, 이미지·텍스트·오디오·비디오를 함께 처리할 수 있는 멀티모달 경량 모델이 부족했다.

Technical Solution

MatFormer 아키텍처 도입: 네스트된 트랜스포머 디자인으로 E2B를 E4B의 서브모델로 구성하여 하나의 학습으로 여러 크기의 모델 생성
Per-Layer Embeddings (PLE) 구현: CPU로 임베딩을 오프로드하여 E2B 모델이 실제 5B 파라미터임에도 2B 파라미터 수준의 GPU 메모리(2GB) 사용
MobileNet-V5-300 비전 인코더 추가: 300M 파라미터로 ViT Giant 대비 3배 적은 파라미터로 Google Pixel에서 60 FPS 달성
Universal Speech Model (USM) 기반 오디오 인코더 구현: 160ms 청크 단위 음성 처리로 음성-텍스트 변환 및 다국어 번역 지원(35개 언어)
KV Cache Sharing 최적화: 오디오·비디오 장문맥 처리 시 prefill 속도를 Gemma 3 4B 대비 2배 가속
주요 라이브러리 통합: transformers, timm, MLX, llama.cpp, transformers.js, ollama, Google AI Edge에 동시 배포

Impact

E4B 모델이 10B 이하 모델 중 최초로 LMArena 점수 1300+ 달성
E2B는 2GB GPU RAM, E4B는 3GB GPU RAM에서 실행 가능
140개 언어 텍스트 지원, 35개 언어 멀티모달 상호작용 지원
Google Pixel에서 비전 인코더 60 FPS 성능 달성

Key Takeaway

중첩된 트랜스포머 구조(MatFormer)와 임베딩 CPU 오프로드를 결합하면 실제 파라미터 수 대비 메모리 사용량을 절반 이하로 줄이면서도 성능을 유지할 수 있으며, 이는 엣지 디바이스에서의 멀티모달 AI 배포 가능성을 크게 확장한다.

실천 포인트

온디바이스 AI 모델을 배포하는 엔지니어들은 transformers 라이브러리의 파이프라인 API('image-text-to-text')를 사용해 이미지·텍스트 입력을 2GB GPU 메모리에서 처리할 수 있으며, 모델 카드의 Per-Layer Embeddings 설정을 통해 자신의 도메인에 맞게 미세조정할 수 있다.

태그

#Edge AI #Model Compression #On-Device #Gemma #MultiModal

원문 읽기