피드로 돌아가기
Training a Twitch chat toxicity classifier on real VOD data at scale
Dev.toDev.to
AI/ML

GraphQL 내부 엔드포인트 기반 대규모 VOD 채팅 데이터셋 구축

Training a Twitch chat toxicity classifier on real VOD data at scale

Devil Scrapes2026년 6월 5일14intermediate

Context

Twitch Helix API의 VOD 채팅 리플레이 엔드포인트 부재로 인한 학습 데이터 수집 제약 발생. 단순 텍스트 외에 Emote 및 User Badge 등 시그널 기반의 풍부한 Feature가 포함된 고밀도 데이터셋 확보 필요성 대두.

Technical Solution

  • curl-cffi 기반 Browser TLS Fingerprint 회전을 통한 서버측 403 거부 방지 설계
  • Residential Proxy 및 세션 ID 교체를 통한 IP 기반 Rate-limit 우회 구조 구현
  • Integrity Check 챌린지를 회피하기 위한 Cursor-based 대신 Offset-based Pagination 채택
  • Exponential Backoff 전략을 적용한 408, 429, 5xx 에러 핸들링으로 데이터 수집 안정성 확보
  • Emote ID와 User Badge, Subscriber 상태를 분리 추출하여 단순 TF-IDF 한계를 극복한 Feature Engineering 기반 마련
  • Message Offset Seconds를 통한 타임라인별 샘플링으로 데이터 편향성 제거

1. 스크래핑 시 TLS Fingerprint가 ClientHello 단계에서 차단되는지 확인

2. Pagination 방식(Cursor vs Offset)에 따른 서버측 검증 로직 차이 분석

3. 도메인 특화 데이터(Emote, Badge)를 단순 텍스트가 아닌 구조화된 필드로 분리하여 Feature 가치 극대화

4. 데이터 불균형 해소를 위해 타임라인(Offset) 기반의 전략적 샘플링 적용

원문 읽기