LLM Context Window 낭비 분석을 통한 토큰 비용 최적화 프레임워크

ContextLens — py-spy/pprof but for what's inside your LLM prompt

Harshal Sant2026년 6월 8일2분intermediate

AI 요약

Context

Multi-turn Agent Loop 구조에서 이전 턴의 Context가 반복 전송됨에 따른 토큰 비용의 기하급수적 증가 발생. 기존 Observability 도구는 단순 합산 Token Count만 제공하여 구체적인 낭비 지점 파악이 불가능한 한계 존재.

Context Window를 System Prompt, Tool Schema, Tool Result 등으로 세분화하여 Region별 비용 분석 수행
SHA-256 Content Hashing을 적용하여 턴 간 중복 전송되는 블록을 추적하는 Re-billing 메커니즘 구현
Jaccard Similarity(85% 기준) 기반의 Near-Duplicate 탐지로 유사 중복 데이터 식별
Assistant Message와의 참조 관계 분석을 통해 사용되지 않는 Stale Tool Result 및 Unused Tool Schema 추출
모델 출력값과 Retrieval Chunk 간의 Overlap(15% 기준) 분석을 통한 Redundant Retrieval 탐지
분석 결과를 D3 Treemap 형태의 시각화 보고서로 제공하여 비용 낭비 지점의 직관적 파악 가능

실천 포인트

1. Multi-turn 대화 시 불필요한 Tool Schema가 매 턴 포함되고 있지 않은지 검토

2. Retrieval 결과 중 모델 응답에 기여도가 낮은 Chunk를 필터링하는 Re-ranker 도입 고려

3. 동일한 Context 블록의 반복 전송을 방지하기 위한 Caching 전략 수립

4. SHA-256 해싱을 통해 API 요청 데이터의 중복률을 정량적으로 측정

태그