피드로 돌아가기
Dev.toBackend
원문 읽기
Naver Webtoon 데이터 스크래핑으로 넷플릭스 오리지널 소재 발굴 파이프라인 구축 및 IP 스카우팅 점수 모델 제시
Tracking the Next Squid Game: Mining Naver Webtoon Data Before It Hits Netflix
AI 요약
Context
한국 웹툰은 넷플릭스 오리지널 콘텐츠의 주요 소스이지만, 적응 후보를 발굴하는 과정에는 체계적인 데이터 분석 방법이 없었다. Naver Webtoon의 7천만 월간 이용자 투표 데이터(구독자 수, 별점)가 공개되어 있지만 수작업으로 추적하기에는 규모가 크다.
Technical Solution
- Apify 플랫폼을 활용한 Naver Webtoon 스크래퍼 개발: 요일(월~일), 장르, 키워드, 에피소드 리스트 등 4가지 브라우징 모드로 웹툰 메타데이터 추출
- 추출 데이터 스키마 정의: titleId, 제목, 작가, 장르 배열, 구독자 수, 별점(9.82 범위), 발행일, 에피소드 총수, 완결 여부, 유료/무료, 연령등급, 태그 배열, 썸네일 URL, 스크래핑 타임스탬프 포함
- Python 및 JavaScript/Node.js 클라이언트 코드 제공: ApifyClient 라이브러리로 스크래퍼 실행 및 dataset 결과 반복 처리
- 적응 후보 점수 모델 구현: 구독자 수(0.5 가중치) + 별점/10(0.3 가중치) + 드라마 친화적 장르 포함 여부(0.2 가중치)로 순위 계산
- 주간 약 500개 타이틀 모니터링 비용 책정: Pay Per Dataset Item 방식으로 월 약 $24 소요
Impact
상위 10% 타이틀이 전체 구독자의 약 78%를 차지하는 가파른 구독자 절벽 현상 확인. 장르 분포: 로맨스 34%, 판타지 21%, 액션 15%, 드라마 12%, 스릴러 8%. 완결률 42%, 진행중 58%. 수요 증명과 스튜디오 간과의 균형점은 50만~200만 구독자 + 9.5점 이상 별점 범위로 식별.
실천 포인트
IP 스카우팅 팀에서 공개된 웹툰 메타데이터를 정기적으로 스크래핑하고 구독자 수·별점·완결 여부·장르 조합으로 가중치 모델을 적용하면, 대형 스튜디오의 주목을 받지 않은 500K~2M 구독자 대역의 고평가 웹툰을 체계적으로 발굴할 수 있다.