피드로 돌아가기
Google AI Edge Gallery - 완전 오프라인 LLM 갤러리 앱 오픈소스
GeekNewsGeekNews
AI/ML

Google AI Edge Gallery - 완전 오프라인 LLM 갤러리 앱 오픈소스

iPhone에서 30 TPS 구현, Gemma 4 기반 온디바이스 AI 실현

xguru2026년 4월 6일4intermediate

Context

클라우드 기반 LLM의 높은 비용과 개인정보 보호 문제 발생. 모바일 기기의 하드웨어 제약으로 인한 고성능 모델 실행 한계 존재. 데이터 보안을 위한 클라이언트 측 로컬 실행 환경 필요.

Technical Solution

  • Gemma-4-E2B-it 모델을 활용한 온디바이스 LLM 추론 구조 설계
  • NPU(Neural Engine)와 GPU를 활용한 하드웨어 가속 기반의 추론 최적화
  • 메모리 제약 해결을 위한 모델 양자화(Quantization) 단계 조정 전략 적용
  • Android 환경에서 WebView 샌드박스와 표준 문자열 I/O를 통한 상호작용 인터페이스 구축
  • 모바일 액션 기능을 통한 기기 제어 및 시스템 API 연동 설계
  • MLX 프레임워크를 통한 macOS 최적화 및 로컬 실행 환경 구현

Impact

  • iPhone 16 Pro 기반 Gemma-4-E2B-it 모델 테스트 시 초당 30토큰(30 TPS) 생성 속도 기록
  • A16 칩 기준 35 TOPS 성능의 Neural Engine 활용 가능

Key Takeaway

NPU 중심의 엣지 컴퓨팅 가속화로 인해 클라우드 의존도를 낮춘 자율적 온디바이스 AI 에이전트 설계 가능성 확인.


모바일 디바이스의 가용 메모리 용량에 따라 양자화 수준을 동적으로 결정하여 추론 성능과 정확도의 트레이드오프를 최적화할 것

원문 읽기