Gemma 4 E2B와 LiteRT 기반 1.5GB 이하 RAM 점유 Local Android Assistant 구현

Aether: A local Android assistant built with Gemma 4

Arjun Vijay Prakash2026년 5월 25일2분intermediate

AI 요약

Context

Cloud 기반 어시스턴트의 개인정보 유출 우려와 오프라인 환경의 제약 사항 분석. 기존 모바일 환경의 엄격한 Memory Limit으로 인한 LLM 실행 시 프로세스 강제 종료 문제 해결 필요.

ACTION_ASSIST intent 등록을 통한 OS 수준의 Default Assistant 대체 구조 설계
FriedGPT 코드베이스에서 Cloud API Route를 완전히 제거한 Local Inference 전용 경계 구축
LiteRT-LM 및 4-bit Weights 적용을 통한 모델 경량화로 메모리 사용량 최적화
Per-Layer Embeddings 도입을 통한 RAM 점유율 최소화 설계
Local Sliding Window와 Global Attention을 혼합한 Hybrid Attention mechanism으로 처리 속도 및 문맥 유지력 확보
128K Context Window 활용을 통한 로컬 채팅 이력의 유실 없는 상태 유지

실천 포인트

1. 모바일 LLM 도입 시 OS의 Memory Killer 방지를 위한 4-bit Quantization 적용 검토

2. 대규모 컨텍스트 유지를 위해 Sliding Window와 Global Attention의 적절한 혼합 비율 설정

3. 개인정보 보호가 핵심인 기능의 경우 Cloud API 대신 Local-first 아키텍처 채택

태그