LLM 출력 토큰 비용 절감을 위한 프록시 기반 컨텍스트 최적화 설계

HTML Is the New Markdown

Vishal VeeraReddy2026년 5월 17일10분intermediate

AI 요약

Context

LLM 기반 코딩 에이전트에서 Markdown 대비 HTML 출력 시 2~4배의 토큰 소모와 비용 증가 발생. 단순 출력 형식의 문제가 아닌, 반복 전송되는 시스템 프롬프트, Tool 정의 및 방대한 대화 이력이 토큰 비용의 대부분을 차지하는 구조적 한계 존재.

실천 포인트

1. 에이전트 루프 진입 전 Preflight 체크를 통해 불필요한 API 호출 가능성 검토

2. 모델에 전달하는 Tool Schema의 양을 동적으로 조절하는 Selective Tooling 적용

3. 대화 이력 및 Tool 결과값의 압축/중복 제거 파이프라인 구축

4. 작업의 중요도와 복잡도에 따른 모델 티어링(Tiering) 전략 수립

태그