Verified 도메인 중 단 0.2%만 통과한 Agent-Readiness 측정 프레임워크 구축

Introducing the UCP Score: A 0–100 Agent-Readiness Grade for Every UCP Store

Benji Fisher2026년 4월 29일9분intermediate

AI 요약

Context

UCP manifest 존재 여부만 확인하던 단순 검증 방식의 한계로 인해 실제 AI Agent의 작동 가능 여부를 판단할 정량적 지표 부재. 4,014개 검증 도메인 중 flawless experience를 제공하는 사례가 9개(0.2%)에 불과한 극심한 품질 격차 발생.

Technical Solution

Agent Discovery(30%), UCP Conformance(40%), Capability Coverage(30%)의 가중 평균 기반 Composite Score 산출 로직 설계
Manifest 유효성 검증에 3배 가중치를 부여하여 기본 스펙 미준수 시 최대 점수를 50점으로 제한하는 하드 캡 적용
Functional Probe를 통한 실제 Transport Endpoint 응답 여부 확인 및 미응답 시 점수를 차감하는 실시간 검증 체계 구축
인프라 프로필별 편차 제거를 위해 전체 평균이 아닌 플랫폼 단위(예: Shopify)의 Percentile 기반 상대 성능 비교 모델 도입
새로운 스펙 버전 대응을 위해 scoring weight와 에러 코드를 하드코딩 없이 Config 기반으로 관리하는 확장형 아키텍처 설계

Impact

4,014개 Verified Store 분석 결과, 실제 정상 작동률 0.2%라는 심각한 품질 격차 정량적 식별
Lighthouse 및 SSL Labs 수준의 5단계 등급제(A~F) 도입을 통한 생태계 표준 벤치마크 제시

실천 포인트

- 단순 유효성 검사(Validation)를 넘어 실제 작동 가능성(Readiness)을 측정하는 가중치 기반 스코어링 모델 검토 - 정적 분석과 동적 프로빙(Functional Probe)을 결합하여 선언적 명세와 실제 구현체 간의 간극 측정 - 도메인 특성에 따른 성능 왜곡을 방지하기 위한 Peer-group 기반 Percentile 분석 적용 - 스펙 변경이 잦은 프로토콜 설계 시 로직과 설정을 분리하여 Refactor 없는 설정 변경 구조 확보

태그

#Composite Scoring #Agent-Readiness #Benchmarking #UCP #Functional Probing

원문 읽기