피드로 돌아가기
Dev.toAI/ML
원문 읽기
MCP 기반 오케스트레이션으로 PDF 처리 토큰 12배 절감 및 비용 90% 감소
I gave my AI agent a 2MB PDF. Here's what happened to my token count.
AI 요약
Context
LLM Agent가 PDF 파일을 Inline으로 처리할 때 발생하는 과도한 Input Token 소모 문제 분석. Base64 인코딩이나 단순 텍스트 추출 방식은 불필요한 데이터 노이즈를 포함하여 추론 비용을 증가시키고 Context Window를 낭비하는 구조적 한계 존재.
Technical Solution
- Model Context Protocol(MCP)을 통한 Agent의 역할 정의를 '직접 계산'에서 '외부 서비스 오케스트레이션'으로 전환
- PDF-to-Markdown 변환과 같은 결정적(Deterministic) 작업은 CPU 기반의 전문 외부 서비스에 위임하는 구조 설계
- Agent는 파일 전체를 읽지 않고 변환 요청, 상태 확인, 결과 URL 수신으로 이어지는 제어 흐름만 담당
- 정제된 Markdown 형식을 활용하여 raw text 대비 40~50% 수준의 토큰 효율성 확보
- 파일 크기에 상관없이 일정 수준의 MCP 오버헤드 토큰만 사용하는 Constant-time 토큰 비용 구조 구현
- 추론(Reasoning)과 계산(Computation)의 책임을 분리하여 LLM의 'Lost in the Middle' 현상 방지 및 정확도 개선
실천 포인트
- [ ] PDF/Docx 등 대용량 파일 처리 시 Base64 인코딩 사용 여부 점검 및 즉시 제거 - [ ] LLM이 직접 수행할 필요가 없는 결정적 변환 작업(Conversion)을 분리했는지 검토 - [ ] MCP와 같은 표준 프로토콜을 도입하여 Agent-Tool 간의 인터페이스 규격화 검토 - [ ] Input Token 비용이 전체 파이프라인 비용에서 차지하는 비중을 정량적으로 측정