피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM API 호출 65% 낭비 제거를 위한 Local-first Prompt Router 설계
I Tracked Every LLM API Call For a Week — 65% Were Unnecessary
AI 요약
Context
LLM API의 단순 비용 합계만 제공하는 대시보드 한계로 인한 개별 요청의 가치 판단 불가능 상태. 단순 코드 검색이나 설정 확인 등 로컬 처리가 가능한 요청이 외부 API로 전송되어 발생하는 비용 낭비 문제.
Technical Solution
- llm-costlog 라이브러리를 통한 요청별 Intent 분류 및 Token 사용량의 SQLite 기반 Ledger 기록 체계 구축
- PromptRouter 게이트웨이 도입을 통한 요청 경로의 동적 제어 및 Local/External 라우팅 로직 구현
- AST Parser 기반의 Call Graph 및 Import Dependency 추적을 통한 심볼 검색의 로컬 처리 구조 설계
- BM25 텍스트 매칭과 Semantic Search(all-MiniLM-L6-v2)를 6:4 비율로 혼합한 Blended Scoring 기반의 코드 검색 최적화
- 전체 저장소 대신 3~5개의 핵심 파일만 선택적으로 패킹하는 Context Compaction 기법을 통한 Input Token 절감
- SDK 의존성을 제거한 HTTP 기반 LLM Client 설계를 통한 런타임 경량화 및 유연한 엔드포인트 확장성 확보
실천 포인트
- LLM API 호출 전 Local AST 분석 및 정규식으로 해결 가능한 단순 쿼리인지 판별하는 인터셉터 도입 검토 - 전체 컨텍스트 주입 대신 BM25와 벡터 검색을 결합한 RAG 기반의 컨텍스트 최적화 적용 - 모델별 토큰 비용을 추적하는 자체 Ledger를 구축하여 Intent별 ROI 분석 수행