MCP 기반 오케스트레이션으로 PDF 처리 토큰 12배 절감 및 비용 90% 감소

I gave my AI agent a 2MB PDF. Here's what happened to my token count.

Mark Turner2026년 5월 28일6분intermediate

AI 요약

Context

LLM Agent가 PDF 파일을 Inline으로 처리할 때 발생하는 과도한 Input Token 소모 문제 분석. Base64 인코딩이나 단순 텍스트 추출 방식은 불필요한 데이터 노이즈를 포함하여 추론 비용을 증가시키고 Context Window를 낭비하는 구조적 한계 존재.

Technical Solution

Model Context Protocol(MCP)을 통한 Agent의 역할 정의를 '직접 계산'에서 '외부 서비스 오케스트레이션'으로 전환
PDF-to-Markdown 변환과 같은 결정적(Deterministic) 작업은 CPU 기반의 전문 외부 서비스에 위임하는 구조 설계
Agent는 파일 전체를 읽지 않고 변환 요청, 상태 확인, 결과 URL 수신으로 이어지는 제어 흐름만 담당
정제된 Markdown 형식을 활용하여 raw text 대비 40~50% 수준의 토큰 효율성 확보
파일 크기에 상관없이 일정 수준의 MCP 오버헤드 토큰만 사용하는 Constant-time 토큰 비용 구조 구현
추론(Reasoning)과 계산(Computation)의 책임을 분리하여 LLM의 'Lost in the Middle' 현상 방지 및 정확도 개선

실천 포인트

- [ ] PDF/Docx 등 대용량 파일 처리 시 Base64 인코딩 사용 여부 점검 및 즉시 제거 - [ ] LLM이 직접 수행할 필요가 없는 결정적 변환 작업(Conversion)을 분리했는지 검토 - [ ] MCP와 같은 표준 프로토콜을 도입하여 Agent-Tool 간의 인터페이스 규격화 검토 - [ ] Input Token 비용이 전체 파이프라인 비용에서 차지하는 비중을 정량적으로 측정

태그

#LLM orchestration #Context Window #Cost Efficiency #Model Context Protocol #Token Optimization

원문 읽기