토큰 96% 절감보다 중요한 소형 LLM의 실행 신뢰성 확보

Why we kept named MCP tools despite a 96% token saving

Bryan Clark2026년 6월 24일11분intermediate

AI 요약

Context

SignalK MCP 서버 구현 중 토큰 효율성을 극대화한 execute_code 방식의 기존 솔루션을 검토함. 하지만 Voice-first 환경의 소형 모델(Hermes 3 8B)을 사용하는 시스템 특성상 토큰 절감보다 실행 결과의 일관성과 신뢰성이 더 중요한 제약 사항으로 작용함.

Technical Solution

정교한 JavaScript 코드 생성이 어려운 소형 모델의 특성을 고려하여 Discrete Named Tool 구조 유지
모델의 인지 부하를 최소화하기 위해 단일 인자 기반의 단순한 함수 호출 인터페이스 설계
TTS(Text-to-Speech) 엔진의 오독을 방지하기 위해 SI 단위 및 코드를 사람이 읽기 쉬운 형태의 display 필드로 변환하는 Response Contract 적용
정교한 코드 생성 능력이 요구되는 execute_code 대신 정의된 도구 집합을 제공하여 런타임 에러 가능성 원천 차단
타 솔루션의 장점인 get_active_alarms 및 list_paths 기능을 벤치마킹하여 기능적 완성도 보완

실천 포인트

1. 사용 중인 LLM의 파라미터 규모가 코드 생성 및 복잡한 Tool Calling을 안정적으로 수행할 수 있는지 검증

2. Voice-first 인터페이스 설계 시 raw data가 아닌 TTS 최적화된 전용 display 필드 포함 여부 검토

3. 추상화 수준이 높은 단일 도구(execute_code)와 명시적인 개별 도구 중 모델의 추론 능력에 맞는 인터페이스 선택

태그

#Token Efficiency #MCP #Voice-first AI #Tool Calling #LLM

원문 읽기