피드로 돌아가기
LLM API pricing comparison: one schema across all 7 providers for $5.05/1K
Dev.toDev.to
Infrastructure

7개 LLM 제공사 분산 데이터의 단일 스키마 정규화 및 자동 수집 파이프라인 구축

LLM API pricing comparison: one schema across all 7 providers for $5.05/1K

Devil Scrapes2026년 6월 2일10intermediate

Context

LLM 제공사별로 상이한 프라이싱 페이지 구조와 갱신 주기로 인해 최신 비용 데이터 확보에 어려움 발생. 공식 API의 부재와 Cloudflare 차단 및 RSC 페이로드 등 복잡한 프론트엔드 스택으로 인한 단순 HTTP 요청 기반 수집의 한계 직면.

Technical Solution

  • TLS Fingerprinting 기반의 curl-cffi 브라우저 모사 프로필 회전을 통한 Cloudflare 챌린지 우회 구조 설계
  • RSC(React Server Components) 하이드레이션 번들 내 JSON 데이터를 Regex로 추출하는 맞춤형 파서 구현
  • per-1K, per-1M 등 상이한 과금 단위를 USD per 1M tokens로 단일화하는 정규화 로직 적용
  • Exponential Backoff와 Residential Proxy 세션 고정을 통한 HTTP 429/503 에러 대응 및 안정성 확보
  • Pydantic 기반의 데이터 검증 체계와 QA Fixture를 통한 파서 컨트랙트 드리프트 실시간 감지

1. 반사적 HTML 파싱 전 서버 응답 내 RSC/JSON 페이로드 존재 여부 확인

2. 단순 User-Agent 변경을 넘어 TLS Handshake 수준의 브라우저 모사 라이브러리 검토

3. 단위 변환 오류 방지를 위한 상위 단계(Upstream) 단위 감지 및 강제 정규화 로직 적용

4. 파서의 'Silent Failure' 방지를 위해 빈 데이터셋 반환 시 즉시 에러를 발생시키는 Fail-fast 전략 채택

원문 읽기