Bundling 전략으로 LLM 호출 14회를 1회로 최적화한 맞춤형 학습 앱

Maatru: An agentic Telugu literacy app for kids, built with Gemma 4

Avinash Seethalam2026년 5월 22일6분intermediate

AI 요약

Context

Indic script에 대한 Gemma 4의 Vision 인식 능력 부족과 모델의 높은 Latency 및 불안정한 API 응답성이 제약 사항으로 작용. 실시간 상호작용에 LLM을 직접 배치할 경우 발생하는 사용자 경험 저하와 잦은 502 에러 해결이 필수적이었음.

LLM 호출을 세션 시작 시점에 단 한 번으로 제한하는 Bundling 아키텍처 설계
SessionPlan 객체에 전체 세션의 정답, Distractor, Feedback 문구를 미리 생성하여 캐싱하는 방식 채택
Deterministic Kid Loop 구조를 통해 사용자 인터랙션 중 LLM 의존성을 완전히 제거하여 Sub-second 응답 속도 구현
SQLite 기반의 Tool 호출을 통한 agentic planner 설계로 학습 이력에 기반한 맞춤형 커리큘럼 생성
Exponential Backoff(1s, 3s, 9s) 재시도 메커니즘과 결정론적 Fallback Heuristic을 결합한 가용성 확보 전략 수립
31B Dense 모델의 Function Calling 신뢰도(100% 성공률)를 활용한 구조적 설계 기반 마련

실천 포인트

1. LLM 응답 속도가 사용자 경험의 병목이 될 경우, 요청 단위를 세션 단위로 묶는 Bundling 전략 검토

2. LLM의 확률적 응답 실패에 대비해 동일한 인터페이스를 가진 Deterministic Fallback 로직을 반드시 구현

3. 외부 API 의존성이 높은 경우 Retry-with-backoff 전략과 최대 Timeout 설정을 통한 시스템 안정성 확보

태그