피드로 돌아가기
Dev.toAI/ML
원문 읽기
Gemma 4 E2B 기반 온디바이스 AI 서버 구축 및 7-8 TPS 달성
I Ran an AI Model on My Phone. No Cloud. No API Keys. Just Gemma 4 and Termux.
AI 요약
Context
클라우드 의존적인 LLM 아키텍처로 인한 네트워크 비용 및 프라이버시 문제 발생. 특히 인프라 환경이 열악한 지역에서 API 기반 AI 서비스 접근의 물리적 제약 존재.
Technical Solution
- Termux Linux 환경 구축을 통한 Android OS 상의 로컬 런타임 확보
- Ollama 프레임워크 기반의 Gemma 4 E2B 모델 최적화 및 배포
- 2.3B 파라미터 및 128K Context Window 모델 채택을 통한 모바일 메모리 제약 해결
- Port 11434 기반의 Local API 노출로 모바일 기기를 Edge Server로 전환하는 구조 설계
- Foreground 프로세스 유지 및 전원 공급을 통한 Android OS의 Aggressive Memory Management 회피
실천 포인트
- 기기 RAM 용량에 따른 모델 선정(12GB 미만 E2B, 12GB 이상 E4B) - Thermal Throttling 방지를 위한 Request Batching 전략 수립 - OS의 프로세스 킬 방지를 위한 Foreground 서비스 설정 및 전원 관리 최적화 - 네트워크 단절 환경을 고려한 Offline-First AI 파이프라인 설계 검토