피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM 출력 토큰 비용 절감을 위한 프록시 기반 컨텍스트 최적화 설계
HTML Is the New Markdown
AI 요약
Context
LLM 기반 코딩 에이전트에서 Markdown 대비 HTML 출력 시 2~4배의 토큰 소모와 비용 증가 발생. 단순 출력 형식의 문제가 아닌, 반복 전송되는 시스템 프롬프트, Tool 정의 및 방대한 대화 이력이 토큰 비용의 대부분을 차지하는 구조적 한계 존재.
Technical Solution
- LLM API와 클라이언트 사이에 위치하여 요청을 최적화하는 Self-hosted Proxy 계층 도입
- Preflight Short-circuit 로직을 통해 쉘 명령어로 작업 완료 여부를 선검증하여 불필요한 모델 호출 원천 차단
- Smart Tool Selection 기법을 적용하여 매 턴 전송되는 Tool 정의 오버헤드를 약 60% 감축
- Tool Result Compression 및 History Compression을 통한 중복 상태 제거로 입력 토큰 규모 최적화
- Risk-aware Routing 설계를 통해 단순 조회는 저비용 모델로, 최종 HTML 생성은 고성능 모델로 분기 처리
- Semantic Cache 레이어를 구축하여 동일 요청에 대한 반복적 생성 비용 제거
실천 포인트
1. 에이전트 루프 진입 전 Preflight 체크를 통해 불필요한 API 호출 가능성 검토
2. 모델에 전달하는 Tool Schema의 양을 동적으로 조절하는 Selective Tooling 적용
3. 대화 이력 및 Tool 결과값의 압축/중복 제거 파이프라인 구축
4. 작업의 중요도와 복잡도에 따른 모델 티어링(Tiering) 전략 수립