토큰 소모 89% 절감, HTTP Proxy 기반 컨텍스트 최적화 전략

I was burning through AI tokens without realizing it. Here's how I fixed it.

Sergio Ramos Vicente2026년 4월 5일4분intermediate

AI 요약

Context

LLM CLI 도구 사용 시 대화 이력이 누적되며 요청마다 전체 컨텍스트를 재전송하는 구조. 시스템 프롬프트와 도구 실행 결과가 중복 전송되어 토큰 비용이 기하급수적으로 증가하는 한계. 기존 stdout 필터링 도구는 이미 누적된 이력을 제어하지 못하는 구조적 제약.

데이터 생성 단계의 필터링보다 전송 직전의 프록시 계층에서 전체 컨텍스트를 제어하는 것이 비용 최적화에 더 효과적임. 저비용 모델을 활용한 계층적 요약 구조는 품질 손실 없이 인풋 토큰을 획기적으로 줄이는 설계 전략임.

실천 포인트

LLM 컨텍스트 윈도우 포화로 인한 비용 증가 시, 전송 직전 계층에서 시스템 프롬프트 캐싱 및 이력 요약 프록시 도입을 검토할 것

태그