Token Budget 기반 지침 계층화로 AI Agent Attention 최적화

The Harness Has a Token Budget

Ian Johnson2026년 6월 3일9분intermediate

AI 요약

Context

CLAUDE.md 지침 파일이 4,000 tokens를 초과하며 LLM의 Middle-of-the-prompt 망각 현상으로 인한 규칙 준수율 저하 발생. 모든 세션에 고정적으로 포함되는 Harness의 토큰 비용이 실제 작업에 필요한 Context Window를 점유하는 병목 지점 형성.

Technical Solution

Token Budget 개념을 도입하여 각 규칙의 토큰 비용 대비 오류 방지 가치(Exchange Rate)를 기준으로 유지 여부 결정
Consolidate 및 Compress 전략을 통해 중복 규칙 통합 및 추론 과정을 제거한 핵심 명제 위주의 지침 압축
Scope down 설계를 적용하여 전역 지침을 특정 모듈 단위의 CLAUDE.md로 분산 배치함으로써 필요 시에만 토큰 비용 지불
Linter 및 Generator 등 기계적 강제가 가능한 제약 사항을 코드베이스로 이전하여 Linguistic 지침의 의존도 최소화
Always-on, Corpus, Transient Sensors의 3단계 계층 구조(Tiering)를 구축하여 호출 빈도와 중요도에 따른 토큰 할당 최적화

실천 포인트

1. CLAUDE.md 내 지침의 위치가 하단으로 갈수록 준수율이 떨어지는지 확인

2. 규칙별 '토큰 소모량 대비 사고 예방 횟수'를 측정하여 낮은 가치의 규칙 삭제

3. 추론 과정(Reasoning)이 포함된 긴 설명을 제거하고 결과 중심의 명제만 남기기

4. 모듈별 전용 지침 파일로 분리하여 Context Window 점유율 최적화

5. Linter로 대체 가능한 규칙이 지침 파일에 남아있는지 전수 조사

태그

#LLM orchestration #Context Window #Prompt Engineering #Attention Mechanism #Token Budget

원문 읽기