피드로 돌아가기
Netflix wiz creates app to slash AI bills, then open sources it
The RegisterThe Register
AI/ML

토큰 최적화 프록시 Headroom을 통한 AI 비용 90% 절감 및 지연 시간 단축

Netflix wiz creates app to slash AI bills, then open sources it

2026년 5월 31일7intermediate

Context

LLM의 Context Window 확장에 따라 입력 토큰 양이 급증하며 비용 부담과 'Context Rot' 현상이 발생함. 기존 모델 제공자의 Cache 설정은 TTL 제약 및 쓰기 비용 증가로 인해 효율적인 토큰 관리에 한계가 있음.

Technical Solution

  • LLM 요청 전 단계에서 동작하는 Local Proxy(Port 8787) 구조를 통한 입력 데이터 사전 최적화
  • CacheAligner 도입으로 변경된 데이터만 전송하여 KV Cache Miss를 방지하고 비용 효율성 극대화
  • 콘텐츠 유형별 Router를 통해 AST(코드), JSON, DOM 등 데이터 특성에 맞는 전용 Compressor 적용
  • 원본 프롬프트를 보관하는 CCR(Compressor-Context Repository) 기반의 Reversible Compression 설계
  • Server Log(90% 제거), MCP Tool Output(70% 제거) 등 중복 데이터의 공격적 Pruning 수행

- 시스템 프롬프트 내 UUID, 날짜 등 가변 필드가 KV Cache Miss를 유발하는지 검토 - JSON 스키마, 중복 메타데이터 등 비정형 텍스트 내 반복 패턴의 제거 가능성 분석 - Context Window의 중간 부분 정보 손실(Context Rot) 방지를 위한 입력 데이터 정제 적용

원문 읽기