피드로 돌아가기
Dev.toInfrastructure
원문 읽기
HTTP 402 도입에 따른 Crawling 비용 제어 및 Policy-driven 설계
The HTTP Code Your AI Agent Doesn't Handle Yet: 402
AI 요약
Context
기존의 Web Crawler는 200(성공), 403(차단), 429(속도 제한) 중심의 무료 응답 트리 기반으로 작동함. Cloudflare의 Pay-Per-Crawl 도입으로 HTTP 402(Payment Required) 상태 코드가 실제 과금 체계로 구현되며 런타임 비용 관리라는 새로운 기술적 제약이 발생함.
Technical Solution
- HTTP 402 응답 시
crawler-price헤더를 통한 실시간 견적 확인 및crawler-exact-price를 통한 결제 동의 프로토콜 구현 - 단순 재요청(Naive Agent) 방식의 비용 낭비를 방지하기 위한 3-way Branching Handler 설계
- 비용 최소화를 위한 Free API Fallback 로직을 최우선 순위로 배치하여 불필요한 지출 제거
- 단일 페이지의 과도한 비용 청구를 막기 위한 Per-page Price Cap 설정으로 예산 초과 방지
- 전체 실행 세션의 누적 지출을 관리하는 Per-run Budgeting 시스템을 통한 하드 리밋 적용
- 신규 도메인 최초 402 응답 시 Human-in-the-loop 게이트를 통한 결제 승인 프로세스 검토
실천 포인트
1. HTTP 402 응답 처리 로직이 Fetcher에 포함되어 있는지 확인
2. 페이지당 최대 지불 가능 금액(Per-page Cap) 정의
3. 전체 요청 세션에 대한 총 예산(Per-run Budget) 설정 및 차감 로직 구현
4. 유료 경로 진입 전 무료 대체 소스(Sitemap, Public Dump 등) 탐색 순서 최적화