피드로 돌아가기
Weibo's Hot Search Is the Best Real-Time Feed of Chinese Public Sentiment in 2026
Dev.toDev.to
Backend

Sina Visitor System 제약을 극복한 실시간 Weibo Hot Search 파이프라인 구축

Weibo's Hot Search Is the Best Real-Time Feed of Chinese Public Sentiment in 2026

Sami2026년 5월 8일5intermediate

Context

Weibo Hot Search 데이터는 세션 토큰 기반의 Sina Visitor System과 강력한 Throttling 정책으로 인해 단순 HTTP 요청으로는 수집 불가능한 구조임. 특히 580M 이상의 MAU가 생성하는 고빈도 업데이트 데이터를 안정적으로 확보하기 위한 세션 관리와 재시도 전략이 필수적임.

Technical Solution

  • Session Bootstrap 및 자동 갱신 로직을 통한 Visitor Session Token 만료 문제 해결
  • Exponential Backoff 알고리즘 적용으로 서버 Throttling에 대응한 요청 최적화
  • 5~15분 단위의 폴링 주기 설정으로 뉴스 사이클보다 빠른 Sub-news-cycle 반응 속도 확보
  • Hot Search 랭킹 데이터와 Post-level 데이터를 연결하는 Pivot 구조 설계로 단순 키워드 분석에서 심층 여론 분석으로 확장
  • Rank Change Velocity 계산 로직을 도입하여 급상승 토픽에 대한 Early-warning 시스템 구현
  • 데이터 중복 제거를 위해 Title 기반의 Deduplication 전략을 적용한 스냅샷 저장 방식 채택

1. 외부 API 수집 시 Exponential Backoff 적용 여부 확인

2. 세션 만료에 대비한 자동 Refresh 메커니즘 설계

3. 데이터 랭킹 변화율(Velocity) 측정을 통한 이상 징후 탐지 로직 검토

4. 고수준 요약 데이터(Hot Search)에서 상세 데이터(Post/Comment)로 이어지는 Drill-down 경로 설계

원문 읽기