피드로 돌아가기
InfoQInfoQ
AI/ML

코드 생성 기반 MCP 설계를 통한 API 토큰 소모 99.9% 절감

Cloudflare Launches Code Mode MCP Server to Optimize Token Usage for AI Agents

Leela Kumili2026년 4월 16일2advanced

Context

기존 MCP 아키텍처는 각 API 엔드포인트를 개별 Tool 정의로 노출하여 LLM 컨텍스트 윈도우의 토큰 비용을 급격히 증가시키는 구조적 한계 존재. 대규모 API 플랫폼 운영 시 도구 명세가 추론 공간을 잠식하여 모델의 작업 수행 능력을 저하시키는 병목 발생.

Technical Solution

  • 개별 엔드포인트 노출 방식에서 search()와 execute()라는 두 개의 추상화된 도구만 제공하는 구조로 전환
  • LLM이 TypeScript API를 기반으로 필요한 로직을 직접 코드로 작성하게 하여 OpenAPI 명세 전체의 컨텍스트 로딩을 방지
  • search()를 통한 메타데이터 기반 스펙 쿼리 수행으로 필요한 API 정보만 선택적으로 참조하는 메커니즘 구현
  • V8 Isolate 기반의 secure sandbox 환경 내에서 JavaScript 코드를 실행하여 외부 요청 및 환경 변수 접근을 차단하는 보안 설계
  • 복잡한 Pagination 및 Conditional Logic을 단일 execute() 사이클 내에서 처리하여 왕복 네트워크 오버헤드 최소화

Impact

  • 2,500개 이상의 API 엔드포인트 상호작용 시 토큰 사용량을 1.17M개에서 약 1,000개로 99.9% 감소
  • API 서비스 규모와 무관하게 일정하게 유지되는 Fixed Token Footprint 달성

대규모 API 도구셋을 LLM에 연결할 때 개별 Tool 정의 대신 SDK 기반의 코드 생성-실행 아키텍처 검토. 특히 보안을 위해 V8 Isolate와 같은 샌드박스 환경 내에서 실행 권한을 엄격히 제한하는 핸들러 설계 적용 필요.

원문 읽기