피드로 돌아가기
Genie: Building a Privacy-First Autonomous Agent That Controls Your Phone, Entirely Offline
Dev.toDev.to
AI/ML

Gemma 4 기반 0-Cloud 의존도의 온디바이스 Autonomous Agent 구현

Genie: Building a Privacy-First Autonomous Agent That Controls Your Phone, Entirely Offline

Adebisi Mosimiloluwa2026년 5월 19일16advanced

Context

기존 AI 어시스턴트의 클라우드 의존형 구조로 인한 네트워크 단절 시 작동 불가 및 개인정보 유출 위험 존재. LLM의 단순 텍스트 생성을 넘어 OS 제어 권한을 부여할 때 발생하는 Hallucination으로 인한 치명적 오작동 제어 필요.

Technical Solution

  • 배터리 효율 최적화를 위해 Vosk(Wake-word)와 Android SpeechRecognizer(Full STT)를 분리한 2단계 Voice Pipeline 설계
  • LiteRT-LM SDK의 automaticToolCalling = false 설정을 통한 Tool Call 가로채기 및 RiskAssessor 기반의 실행 전 검증 프로세스 구축
  • Callback 기반 API를 Kotlin callbackFlow로 변환하여 비동기 에이전트 루프의 반응성 확보
  • Gemma 4 E2B/E4B 모델의 2-bit/4-bit Quantization을 통한 모바일 GPU 리소스 최적화 및 OOM 방지
  • 32K Context Window를 활용해 레이아웃 계층 구조와 도구 정의를 프롬프트에 포함하는 온디바이스 컨텍스트 관리
  • 성공 횟수 기반의 Room-backed Skill Cache를 통해 반복 작업의 효율성 증대

- 온디바이스 LLM 도입 시 Quantization 수준에 따른 Token Generation Rate와 OOM 임계점 측정 - 에이전트의 Action 실행 전 Biometric Auth 등 외부 검증 단계 삽입 여부 검토 - 상시 대기 기능 구현 시 저전력 Wake-word 엔진과 고정밀 STT 엔진의 계층적 분리 적용

원문 읽기