피드로 돌아가기
I Ran an AI Model on My Phone. No Cloud. No API Keys. Just Gemma 4 and Termux.
Dev.toDev.to
AI/ML

Gemma 4 E2B 기반 온디바이스 AI 서버 구축 및 7-8 TPS 달성

I Ran an AI Model on My Phone. No Cloud. No API Keys. Just Gemma 4 and Termux.

Okeke Chukwudubem2026년 5월 12일5intermediate

Context

클라우드 의존적인 LLM 아키텍처로 인한 네트워크 비용 및 프라이버시 문제 발생. 특히 인프라 환경이 열악한 지역에서 API 기반 AI 서비스 접근의 물리적 제약 존재.

Technical Solution

  • Termux Linux 환경 구축을 통한 Android OS 상의 로컬 런타임 확보
  • Ollama 프레임워크 기반의 Gemma 4 E2B 모델 최적화 및 배포
  • 2.3B 파라미터 및 128K Context Window 모델 채택을 통한 모바일 메모리 제약 해결
  • Port 11434 기반의 Local API 노출로 모바일 기기를 Edge Server로 전환하는 구조 설계
  • Foreground 프로세스 유지 및 전원 공급을 통한 Android OS의 Aggressive Memory Management 회피

- 기기 RAM 용량에 따른 모델 선정(12GB 미만 E2B, 12GB 이상 E4B) - Thermal Throttling 방지를 위한 Request Batching 전략 수립 - OS의 프로세스 킬 방지를 위한 Foreground 서비스 설정 및 전원 관리 최적화 - 네트워크 단절 환경을 고려한 Offline-First AI 파이프라인 설계 검토

원문 읽기