피드로 돌아가기
Dev.toAI/ML
원문 읽기
Multi-tier 라우팅 및 Context 압축을 통한 LLM API 비용 최소화 설계
How to Cheat LLM Context: A Lightweight AI Doc Assistant Architecture
AI 요약
Context
전체 Markdown 문서를 LLM Prompt에 직접 주입할 때 발생하는 과도한 Token 비용과 API 비용 증가 문제 발생. 특히 반복적이거나 특정 범위에 한정된 질의 시 불필요한 Context 포함으로 인한 자원 낭비가 핵심 병목 지점으로 분석됨.
Technical Solution
- 전처리 단계에서 gpt-5.4-nano를 활용해 28개의 Markdown 파일을 요약 및 API 스키마를 태그별로 분할하여 데이터 밀도 최적화
- gpt-5.4-nano 기반의 Receptionist 계층을 도입하여 Intent Validation을 통한 무관한 질의 차단 및 필요한 문서(3~6개)만 선택하는 File Routing 구현
- 최종 응답 생성 단계에서 gpt-5.4-mini 모델을 채택하고, 선택된 소수 파일만 주입하여 Hallucination 방지 및 응답 속도 향상
- 전체 Chat History 대신 매 응답마다 생성하는 단일 문장 Micro-summary를 다음 턴에 주입하는 Context Hack으로 Token Bloat 제거
실천 포인트
- 고비용 모델 진입 전 경량 모델을 활용한 Intent Filtering 및 Routing 계층 검토 - 전체 대화 이력 대신 요약된 상태값(State Summary)을 전달하는 Context 관리 전략 적용 - 정적 문서의 경우 단순 RAG 대신 사전 요약 및 태그 기반 분할을 통한 데이터 인덱싱 최적화