피드로 돌아가기
Gemma 3n fully available in the open-source ecosystem!
Hugging Face BlogHugging Face Blog
AI/ML

Google이 Gemma 3n 모델을 오픈소스 생태계에 공개해 2GB GPU 메모리만으로 5B 파라미터 모델 실행 가능

Gemma 3n fully available in the open-source ecosystem!

2025년 6월 26일12intermediate

Context

온디바이스 AI 모델 실행 시 GPU 메모리 제약이 큰 문제였으며, 이미지·텍스트·오디오·비디오를 함께 처리할 수 있는 멀티모달 경량 모델이 부족했다.

Technical Solution

  • MatFormer 아키텍처 도입: 네스트된 트랜스포머 디자인으로 E2B를 E4B의 서브모델로 구성하여 하나의 학습으로 여러 크기의 모델 생성
  • Per-Layer Embeddings (PLE) 구현: CPU로 임베딩을 오프로드하여 E2B 모델이 실제 5B 파라미터임에도 2B 파라미터 수준의 GPU 메모리(2GB) 사용
  • MobileNet-V5-300 비전 인코더 추가: 300M 파라미터로 ViT Giant 대비 3배 적은 파라미터로 Google Pixel에서 60 FPS 달성
  • Universal Speech Model (USM) 기반 오디오 인코더 구현: 160ms 청크 단위 음성 처리로 음성-텍스트 변환 및 다국어 번역 지원(35개 언어)
  • KV Cache Sharing 최적화: 오디오·비디오 장문맥 처리 시 prefill 속도를 Gemma 3 4B 대비 2배 가속
  • 주요 라이브러리 통합: transformers, timm, MLX, llama.cpp, transformers.js, ollama, Google AI Edge에 동시 배포

Impact

  • E4B 모델이 10B 이하 모델 중 최초로 LMArena 점수 1300+ 달성
  • E2B는 2GB GPU RAM, E4B는 3GB GPU RAM에서 실행 가능
  • 140개 언어 텍스트 지원, 35개 언어 멀티모달 상호작용 지원
  • Google Pixel에서 비전 인코더 60 FPS 성능 달성

Key Takeaway

중첩된 트랜스포머 구조(MatFormer)와 임베딩 CPU 오프로드를 결합하면 실제 파라미터 수 대비 메모리 사용량을 절반 이하로 줄이면서도 성능을 유지할 수 있으며, 이는 엣지 디바이스에서의 멀티모달 AI 배포 가능성을 크게 확장한다.


온디바이스 AI 모델을 배포하는 엔지니어들은 transformers 라이브러리의 파이프라인 API('image-text-to-text')를 사용해 이미지·텍스트 입력을 2GB GPU 메모리에서 처리할 수 있으며, 모델 카드의 Per-Layer Embeddings 설정을 통해 자신의 도메인에 맞게 미세조정할 수 있다.

원문 읽기