피드로 돌아가기
InfoQAI/ML
원문 읽기
코드 생성 기반 MCP 설계를 통한 API 토큰 소모 99.9% 절감
Cloudflare Launches Code Mode MCP Server to Optimize Token Usage for AI Agents
AI 요약
Context
기존 MCP 아키텍처는 각 API 엔드포인트를 개별 Tool 정의로 노출하여 LLM 컨텍스트 윈도우의 토큰 비용을 급격히 증가시키는 구조적 한계 존재. 대규모 API 플랫폼 운영 시 도구 명세가 추론 공간을 잠식하여 모델의 작업 수행 능력을 저하시키는 병목 발생.
Technical Solution
- 개별 엔드포인트 노출 방식에서 search()와 execute()라는 두 개의 추상화된 도구만 제공하는 구조로 전환
- LLM이 TypeScript API를 기반으로 필요한 로직을 직접 코드로 작성하게 하여 OpenAPI 명세 전체의 컨텍스트 로딩을 방지
- search()를 통한 메타데이터 기반 스펙 쿼리 수행으로 필요한 API 정보만 선택적으로 참조하는 메커니즘 구현
- V8 Isolate 기반의 secure sandbox 환경 내에서 JavaScript 코드를 실행하여 외부 요청 및 환경 변수 접근을 차단하는 보안 설계
- 복잡한 Pagination 및 Conditional Logic을 단일 execute() 사이클 내에서 처리하여 왕복 네트워크 오버헤드 최소화
Impact
- 2,500개 이상의 API 엔드포인트 상호작용 시 토큰 사용량을 1.17M개에서 약 1,000개로 99.9% 감소
- API 서비스 규모와 무관하게 일정하게 유지되는 Fixed Token Footprint 달성
실천 포인트
대규모 API 도구셋을 LLM에 연결할 때 개별 Tool 정의 대신 SDK 기반의 코드 생성-실행 아키텍처 검토. 특히 보안을 위해 V8 Isolate와 같은 샌드박스 환경 내에서 실행 권한을 엄격히 제한하는 핸들러 설계 적용 필요.