MCP Server 도입을 통한 LLM 에이전트 루프 비용 최적화 및 MTG 벤치마크 설계

MTG Bench: Testing how well LLMs can play Magic

2026년 6월 11일5분intermediate

AI 요약

Context

LLM의 추론 능력을 측정하기 위해 규칙 엔진 없이 Magic The Gathering 게임을 시뮬레이션하는 벤치마크 설계. 기존 에이전트 루프 구조에서 도구 호출마다 발생하는 대규모 System Prompt의 반복적인 Input Token 과금 문제가 병목으로 작용.

Technical Solution

Rules Engine을 배제하여 LLM의 순수 추론 및 규칙 준수 능력 측정 구조 설계
Remote MCP Server를 도입하여 LLM 제공사(OpenAI, Anthropic) 측에서 에이전트 루프를 직접 처리하도록 아키텍처 변경
단일 API Call 내에서 도구 호출을 처리함으로써 반복적인 Cached Input Token 과금 구조를 제거하여 비용 효율성 확보
Batch API를 활용하여 매 도구 호출마다 새로운 배치를 제출해야 하는 오버헤드를 제거하고 50% 비용 절감 달성
시뮬레이션의 정당성 검증을 위해 수행 모델과 별개로 gpt-5.5(medium)를 검증기로 사용하는 분리 구조 채택
모든 라이브러리 함수에 reason 필드를 강제하여 모델의 의사결정 과정과 Tool Calling 오류 패턴 분석 기반 마련

실천 포인트

1. LLM 에이전트 구축 시 Tool Calling 횟수가 많다면 플랫폼 제공사의 Remote MCP 지원 여부 검토

2. Input Token Caching 과금 체계가 Agent Loop의 반복 호출 시 어떻게 적용되는지 벤더별 비교 분석

3. 상태 변화가 불가역적인 시뮬레이션 설계 시 모델의 과도한 Tool Calling(Over-eager)으로 인한 상태 오염 가능성 고려

태그

#LLM Benchmark #Batch API #MCP Server #Agent Loop #Input Token Caching

원문 읽기