Local Executor 도입 시 Prompt Cache Re-read로 인한 비용 5.3배 증가 확인

When the Free Executor Cost More: 40 Trials on Opus + Local Qwen Ended Up the Most Expensive Cloud Arm

Ken Imoto2026년 6월 27일9분advanced

AI 요약

Context

Agentic Coding 설계 시 비용 절감을 위해 고성능 Orchestrator와 저비용 Executor를 분리하는 전략을 채택함. Local LLM을 Executor로 사용하여 Token 비용을 제거하려 했으나, 실제 클라우드 비용은 오히려 증가하는 역설적 상황이 발생함.

Technical Solution

Orchestrator(Opus)가 Executor(Qwen)에게 작업을 위임하는 delegate_to_executor 도구 설계
Executor가 반환한 작업 요약 결과가 Orchestrator의 Context Window에 지속적으로 누적되는 구조 채택
Anthropic Prompt Caching의 cache_control: ephemeral 설정을 통한 최신 메시지 캐싱 적용
루프 반복 시마다 이전 턴의 요약본을 다시 읽어들이는 cache_read 메커니즘 작동
Executor의 Token 비용은 0원이나, Orchestrator가 읽어야 할 입력 데이터량이 1.4~5.3배 증가하는 병목 지점 식별

실천 포인트

1. Local LLM Executor 도입 전 Orchestrator의 Context Window 증가량 시뮬레이션 수행

2. Executor가 반환하는 요약 데이터의 최대 길이를 엄격하게 제한하여 Cache Read 비용 최적화

3. 단순 Token 단가 비교가 아닌, 전체 루프 횟수에 따른 누적 Cache Read 비용 산정

4. 성능과 비용의 균형점을 위해 Opus+Haiku와 같은 Cloud-only 계층 구조 검토

태그

#LLM orchestration #Context Window #Prompt Caching #TCO Analysis #Agentic Workflow

원문 읽기