Semantic Retrieval 기반 MCP Proxy로 Token 98% 절감 및 정확도 향상

My AI Agent Could See 167 Tools. Then I Told It to shutup.

HJS Foundation2026년 4월 13일7분intermediate

AI 요약

Context

MCP(Model Context Protocol) 도입에 따른 과도한 Tool 정의 데이터 로드로 인해 초기 요청 시 최대 150,000개 이상의 Token이 소모되는 비용 및 성능 문제 발생. Tool 개수 증가에 따른 Noise 증가로 Tool 선택 정확도가 42%까지 하락하는 아키텍처적 한계 직면.

Technical Solution

Tool 선택 과정을 Reasoning 영역에서 Retrieval 영역으로 전환하여 처리 부하 분산
all-MiniLM-L6-v2 모델을 활용한 Local Embedding Index 구축으로 오프라인 환경 내 시맨틱 검색 구현
User Intent를 쿼리로 사용하여 전체 Tool셋 중 상위 K개의 최적 Tool만 필터링하는 Proxy 레이어 설계
claude_desktop_config.json을 직접 파싱하는 Zero-config 메커니즘을 통한 설정 복잡도 제거
다수의 MCP Server를 단일 엔드포인트로 통합하여 관리하는 Multi-Server Aggregation 구조 채택
sentence-transformers 및 Ollama 백엔드 지원을 통한 데이터 프라이버시 및 Air-gapped 환경 보장

실천 포인트

1. LLM Prompt에 포함되는 Tool/API 정의가 10개 이상일 때 Semantic Filtering 도입 검토

2. 정규식 기반의 Static Filtering보다 Embedding 기반의 Dynamic Retrieval 적용 가능성 확인

3. 외부 API 의존성을 줄이기 위해 Small Embedding Model(80MB 내외)의 Local 배포 고려

4. Token 비용 최적화를 위해 Tool 정의의 Schema Compression과 Semantic Search의 Trade-off 분석

태그

#MCP #Semantic Retrieval #Embedding #Token Optimization #LLM Proxy

원문 읽기