피드로 돌아가기
What Reddit Can Teach Us About Women’s Watch Preferences (Python + NLP Project)
Dev.toDev.to
AI/ML

API Key 없이 Reddit JSON 엔드포인트 기반 NLP 분석 파이프라인 구축

What Reddit Can Teach Us About Women’s Watch Preferences (Python + NLP Project)

elizabeththomas72026년 5월 8일9beginner

Context

여성용 시계 시장 분석을 위한 데이터 수집 필요 상황에서 공식 API 사용의 제약과 노이즈 섞인 데이터셋 처리라는 한계 직면. 소규모 분석 프로젝트 특성상 빠른 프로토타이핑과 낮은 진입 장벽을 가진 데이터 파이프라인 설계가 요구됨.

Technical Solution

  • Public JSON Endpoints 직접 호출을 통한 API Key 의존성 제거 및 데이터 수집 속도 확보
  • Nested JSON 구조를 Flat Dictionary로 정규화하는 extract_post_data 헬퍼 함수 설계를 통한 데이터 전처리 효율화
  • Regex 기반의 Non-Filter Patterns 정의로 남성 사용자 및 무관한 포스트를 제거하는 고정밀 필터링 로직 구현
  • VADER Sentiment Analysis를 활용한 텍스트의 Positive/Negative/Neutral 3단계 정량적 감성 분류 수행
  • TF-IDF Vectorizer와 LDA(Latent Dirichlet Allocation) 모델 조합을 통한 토픽 모델링 및 핵심 키워드 추출
  • 정규표현식 기반의 통화 패턴 매칭을 통한 가격대별(Budget to Luxury) 버킷팅 분석 체계 구축

- 공식 API 제약 시 Public JSON 엔드포인트의 구조 분석을 통한 대안 수집 경로 검토 - 도메인 특화 Regex 필터를 전처리 단계에 배치하여 분석 모델의 입력 데이터 품질(Signal-to-Noise Ratio) 향상 - 단순 빈도 분석을 넘어 LDA와 같은 비지도 학습 기반의 Topic Modeling으로 숨겨진 사용자 니즈 파악

원문 읽기