피드로 돌아가기
14% of the Web Is Actually Dead — But Not How You Think (We Scanned 10M Domains)
Dev.toDev.to
Infrastructure

Chrome TLS Fingerprinting을 통한 Dead Domain 14.1% 정밀 식별

14% of the Web Is Actually Dead — But Not How You Think (We Scanned 10M Domains)

Tony Wang2026년 6월 18일3intermediate

Context

기존 웹 스캔 도구들이 403/429 응답을 받는 Anti-bot 차단 서버를 실제 Dead Domain으로 오분류하여 데이터 정확도가 저하되는 한계 발생. 단순 실패 응답과 실제 서버 부재를 구분하지 못해 불필요한 재시도 및 리소스 낭비 초래.

Technical Solution

  • DNS Record 부재 및 TCP Connection 거부 상태를 Genuine Dead로 정의하여 스캔 효율성 제고
  • HTTP 403/429 응답 시 즉시 Dead 처리하지 않고 Live 서버의 Anti-bot 동작으로 분류하는 로직 구현
  • Chrome TLS/JA3 Fingerprint를 모사한 HTTP Client를 설계하여 서버의 보안 필터링 우회 검증
  • TLS Handshake 및 Header Order를 실제 브라우저와 동일하게 일치시켜 차단된 도메인의 생존 여부 판별
  • NXDOMAIN/REFUSED 응답은 즉시 Skip 처리하고, 403/429 응답 시에만 Browser TLS Context로 재검증하는 2단계 파이프라인 구축

1. HTTP 403/429 응답을 단순 장애로 처리하지 않고 Anti-bot 차단 여부를 먼저 검토할 것

2. Crawler 설계 시 Headless Browser 대신 가벼운 TLS/JA3 Fingerprinting 적용으로 탐지 회피 및 성능 최적화 고려

3. NXDOMAIN 등 하위 계층 에러 발생 시 재시도 없이 즉시 제외하는 Circuit Breaker 전략 적용

원문 읽기