Gemma 4 E2B 기반 $200 저사양 Android 기기 전용 Offline AI 튜터 구현

Gemma-San — A Teacher in Every Pocket.

Daniel Ainoko2026년 5월 19일6분advanced

AI 요약

Context

저대역폭 지역 아동을 위한 교육 접근성 확보를 위해 Cloud 의존성 없는 On-device LLM 환경 구축 필요. 4~6GB RAM의 저사양 기기에서 STT/TTS와 LLM을 동시 구동해야 하는 극심한 메모리 제약 상황 직면.

메모리 OOM 방지를 위해 31B/4B 모델 대신 2.4GB 용량의 Gemma 4 E2B 모델 채택으로 리소스 최적화
모든 응답을 6가지 Native Function Calling으로 강제하여 구조화된 TutorResponse 생성 및 UI 렌더링 일관성 확보
라우팅 단계에서는 Reasoning 성능 향상을 위해 enableThinking 활성화 및 Composition 단계에서는 토큰 낭비 방지를 위해 비활성화하는 경로별 Selective Thinking 전략 적용
Greedy Decoding의 한계를 극복하기 위해 topK=40, temperature=0.4 설정을 통한 Tool Selection 정확도 개선
1,450토큰의 장황한 시스템 프롬프트를 440토큰의 Flat Decision Tree 구조로 압축하여 Attention Horizon 내 효율적 제어 달성
BCP-47 필드 기반의 Multilingual Mirroring 로직을 통해 사용자 입력 언어에 맞춘 실시간 TTS 언어 매칭 구현

실천 포인트

1. SLM 도입 시 Greedy Decoding(topK=1) 대신 적절한 Sampling 파라미터를 설정하여 Tool Calling 오류 방지

2. 시스템 프롬프트 내 복잡한 서술형 지침을 제거하고 Few-shot 기반의 단순 결정 트리 구조로 대체

3. On-device LLM 환경에서 메모리 Footprint를 계산하여 STT/TTS 등 부가 모듈의 점유 공간을 사전에 확보

태그