ACP 도입으로 LLM 토큰 소모량 최대 99% 절감 및 응답 효율 최적화

We benchmarked an 84% token reduction. Then we open sourced the protocol.

Martina Zrnec2026년 5월 18일5분intermediate

AI 요약

Context

웹 페이지의 HTML 구조가 인간의 시각적 경험에 최적화되어 LLM Agent가 불필요한 Boilerplate까지 모두 읽어야 하는 Shape Mismatch 발생. 이로 인해 단순 정보 추출 과정에서도 과도한 Token 소모와 Latency 증가라는 비용 문제가 수반됨.

Technical Solution

Atomic Content Protocol(ACP)을 통한 구조화된 Content Envelope 설계로 데이터 전달 형태 최적화
Content 변화 시 Dirty Flag를 트리거하여 Out-of-band 방식으로 Envelope를 생성하는 비동기 파이프라인 구축
LLM 호출을 Request Path에서 제거하고 Pre-computed된 Envelope를 Cache에서 즉시 제공하는 Read-only 구조 채택
데이터 저장 시 단일 컬럼 방식보다 유연한 관리가 가능한 별도 Table 분리 아키텍처 적용
MCP(Model Context Protocol) 기반의 Open Spec을 구현하여 기존 프로토콜과의 상호 운용성 확보

Impact

Wikipedia AI 아티클 기준 Full body(25,000 tokens) 대비 ACO envelope(350 tokens)로 약 99% 비용 절감
13개 문서 세트 분석 결과 전반적으로 84%에서 93% 사이의 Token Reduction 달성
Full version 대비 ACO 모드 사용 시 동일 쿼리 기준 비용 80% 이상 감소 확인

Key Takeaway

데이터의 표현 형식(Shape)을 소비 주체(Agent)에 맞게 재설계함으로써 최적화 알고리즘보다 훨씬 더 극적인 성능 이득을 얻을 수 있다는 설계 원칙 증명.

실천 포인트

- LLM 기반 서비스 설계 시 Raw HTML 대신 AI 전용 요약 레이어(Envelope) 도입 검토 - LLM 연산을 Request Path에서 분리하여 Async Pipeline으로 사전 계산 및 캐싱 처리 - 데이터 정합성 검증을 위해 생성 도구, 버전, 타임스탬프를 포함하는 Provenance 레이어 설계 - 성능 최적화와 신뢰성(Trust) 사이의 Trade-off를 분석하여 검증 체계 구축

태그

#Async Pipeline #MCP #Atomic Content Protocol #Token Optimization #LLM-Agent

원문 읽기