피드로 돌아가기
Dev.toAI/ML
원문 읽기
Semantic Retrieval 기반 MCP Proxy로 Token 98% 절감 및 정확도 향상
My AI Agent Could See 167 Tools. Then I Told It to shutup.
AI 요약
Context
MCP(Model Context Protocol) 도입에 따른 과도한 Tool 정의 데이터 로드로 인해 초기 요청 시 최대 150,000개 이상의 Token이 소모되는 비용 및 성능 문제 발생. Tool 개수 증가에 따른 Noise 증가로 Tool 선택 정확도가 42%까지 하락하는 아키텍처적 한계 직면.
Technical Solution
- Tool 선택 과정을 Reasoning 영역에서 Retrieval 영역으로 전환하여 처리 부하 분산
- all-MiniLM-L6-v2 모델을 활용한 Local Embedding Index 구축으로 오프라인 환경 내 시맨틱 검색 구현
- User Intent를 쿼리로 사용하여 전체 Tool셋 중 상위 K개의 최적 Tool만 필터링하는 Proxy 레이어 설계
- claude_desktop_config.json을 직접 파싱하는 Zero-config 메커니즘을 통한 설정 복잡도 제거
- 다수의 MCP Server를 단일 엔드포인트로 통합하여 관리하는 Multi-Server Aggregation 구조 채택
- sentence-transformers 및 Ollama 백엔드 지원을 통한 데이터 프라이버시 및 Air-gapped 환경 보장
실천 포인트
1. LLM Prompt에 포함되는 Tool/API 정의가 10개 이상일 때 Semantic Filtering 도입 검토
2. 정규식 기반의 Static Filtering보다 Embedding 기반의 Dynamic Retrieval 적용 가능성 확인
3. 외부 API 의존성을 줄이기 위해 Small Embedding Model(80MB 내외)의 Local 배포 고려
4. Token 비용 최적화를 위해 Tool 정의의 Schema Compression과 Semantic Search의 Trade-off 분석