Gemma 4 E2B 기반 Android 온디바이스 AI: 7.2GB RAM에서 5.74 TPS 달성

Private AI on a Normal Android Phone: Building Krexel with Gemma 4 E2B

KRISHNA D2026년 5월 20일5분advanced

AI 요약

Context

기존 AI 서비스의 클라우드 의존성으로 인한 데이터 프라이버시 침해와 서버 비용 발생 문제 분석. 특히 6~8GB RAM을 보유한 보급형 Android 기기에서 LLM을 구동하기 위한 하드웨어 제약 극복 필요.

Technical Solution

llama.cpp JNI 브릿지를 통한 Gemma 4 E2B GGUF 모델의 온디바이스 추론 구조 설계
SharedAIManager 싱글톤 패턴을 도입하여 Chat, Keyboard, Notes, Translation 4개 기능의 추론 요청을 단일 직렬 파이프라인으로 통합
Priority Preemption 메커니즘을 구현하여 BACKGROUND < NORMAL < HIGH 순의 우선순위에 따라 저순위 생성 작업을 즉시 취소하고 고순위 요청을 처리하는 스케줄링 적용
Queue-based Mutex 설계를 통해 멀티 서피스 환경에서의 Race Condition을 방지하고 생성 상태의 원자적 관리 보장
DeviceTier 기반 RAM 탐지 로직을 구축하여 총 RAM 용량에 따라 모델 크기를 자동 조정하는 메모리 최적화 전략 채택
EncryptedSharedPreferences를 통한 민감 정보 암호화 저장 및 ARM64-v8a 아키텍처 최적화 수행

실천 포인트

- 온디바이스 AI 도입 시 타겟 기기의 RAM 티어별 모델 가이드라인 수립 여부 확인 - 단일 모델을 여러 기능에서 공유할 때 Mutex 기반의 생성 상태 관리 및 Race Condition 방지 로직 설계 - 인터랙티브 작업의 응답성 확보를 위해 작업 우선순위에 따른 Preemption 메커니즘 검토 - 개인정보 민감 데이터 처리 시 클라우드 API 배제 및 완전한 Offline Inference 파이프라인 구축 고려

태그

#Gemma 4 E2B #Memory-Optimization #llama.cpp #Priority Preemption #On-Device AI

원문 읽기