피드로 돌아가기
Dev.toAI/ML
원문 읽기
Bundling 전략으로 LLM 호출 14회를 1회로 최적화한 맞춤형 학습 앱
Maatru: An agentic Telugu literacy app for kids, built with Gemma 4
AI 요약
Context
Indic script에 대한 Gemma 4의 Vision 인식 능력 부족과 모델의 높은 Latency 및 불안정한 API 응답성이 제약 사항으로 작용. 실시간 상호작용에 LLM을 직접 배치할 경우 발생하는 사용자 경험 저하와 잦은 502 에러 해결이 필수적이었음.
Technical Solution
- LLM 호출을 세션 시작 시점에 단 한 번으로 제한하는 Bundling 아키텍처 설계
- SessionPlan 객체에 전체 세션의 정답, Distractor, Feedback 문구를 미리 생성하여 캐싱하는 방식 채택
- Deterministic Kid Loop 구조를 통해 사용자 인터랙션 중 LLM 의존성을 완전히 제거하여 Sub-second 응답 속도 구현
- SQLite 기반의 Tool 호출을 통한 agentic planner 설계로 학습 이력에 기반한 맞춤형 커리큘럼 생성
- Exponential Backoff(1s, 3s, 9s) 재시도 메커니즘과 결정론적 Fallback Heuristic을 결합한 가용성 확보 전략 수립
- 31B Dense 모델의 Function Calling 신뢰도(100% 성공률)를 활용한 구조적 설계 기반 마련
실천 포인트
1. LLM 응답 속도가 사용자 경험의 병목이 될 경우, 요청 단위를 세션 단위로 묶는 Bundling 전략 검토
2. LLM의 확률적 응답 실패에 대비해 동일한 인터페이스를 가진 Deterministic Fallback 로직을 반드시 구현
3. 외부 API 의존성이 높은 경우 Retry-with-backoff 전략과 최대 Timeout 설정을 통한 시스템 안정성 확보