피드로 돌아가기
I was burning through AI tokens without realizing it. Here's how I fixed it.
Dev.toDev.to
AI/ML

토큰 소모 89% 절감, HTTP Proxy 기반 컨텍스트 최적화 전략

I was burning through AI tokens without realizing it. Here's how I fixed it.

Sergio Ramos Vicente2026년 4월 5일4intermediate

Context

LLM CLI 도구 사용 시 대화 이력이 누적되며 요청마다 전체 컨텍스트를 재전송하는 구조. 시스템 프롬프트와 도구 실행 결과가 중복 전송되어 토큰 비용이 기하급수적으로 증가하는 한계. 기존 stdout 필터링 도구는 이미 누적된 이력을 제어하지 못하는 구조적 제약.

Technical Solution

  • API 요청 전 단계에서 전체 대화를 가로채 압축하는 로컬 HTTP Proxy 아키텍처 설계
  • 13,000자 규모의 시스템 프롬프트를 650자로 압축 후 캐싱하여 중복 전송 제거
  • 도구 실행 결과 중 실패한 테스트나 핵심 정보만 추출하는 패턴 기반 필터링 적용
  • 오래된 메시지를 자동으로 요약하고 최신 메시지만 유지하는 슬라이딩 윈도우 방식의 컨텍스트 관리
  • 결정적 패턴으로 압축 불가능한 블록은 저비용 모델(Haiku, GPT-4o-mini 등)을 활용한 AI 요약 수행
  • 압축된 데이터의 원본을 로컬에 저장하고 필요 시 squeezr_expand() 함수로 복원하는 무손실 구조

Impact

  • 단일 메시지 전송량 85,000자에서 25,000자로 71% 감소
  • 장기 세션 기준 누적 토큰 비용 최대 89% 절감
  • 도구 결과물(Tool saving) 94.67% 절감 및 전체 컨텍스트 78% 축소
  • Read(83.8%), WebFetch(60%), Grep(66.4%) 등 개별 도구별 최적화 달성

Key Takeaway

데이터 생성 단계의 필터링보다 전송 직전의 프록시 계층에서 전체 컨텍스트를 제어하는 것이 비용 최적화에 더 효과적임. 저비용 모델을 활용한 계층적 요약 구조는 품질 손실 없이 인풋 토큰을 획기적으로 줄이는 설계 전략임.


LLM 컨텍스트 윈도우 포화로 인한 비용 증가 시, 전송 직전 계층에서 시스템 프롬프트 캐싱 및 이력 요약 프록시 도입을 검토할 것

원문 읽기