피드로 돌아가기
Dev.toAI/ML
원문 읽기
Embedding 기반 Clustering과 Neutral 가중치 조절로 구현한 실시간 인터넷 감성 분석 시스템
I Built a Mood Ring for the Internet in 24 Hours
AI 요약
Context
단순 뉴스 헤드라인 수집만으로는 텍스트의 표면적 중립성으로 인해 실제 대중의 정서적 톤을 포착하는 데 한계 존재. LLM 기반의 개별 항목 라벨링 방식은 토큰 비용 증가와 시맨틱 중복으로 인한 데이터 파편화 문제 야기.
Technical Solution
- Replit Postgres의 JSONB 타입을 활용하여 스키마 변경 없이 감정 모델 업데이트가 가능한 유연한 데이터 구조 설계
- sentence-transformers/all-MiniLM-L6-v2 기반의 Embedding 생성 후 Cosine Similarity를 통한 벡터 Clustering 우선 수행
- 개별 항목이 아닌 클러스터 단위로 LLM을 호출하여 토큰 비용 절감 및 일관된 Topic Summary 생성
- Few-shot Prompting을 통해 기업형 문체를 배제하고 문학적 톤의 감성 요약 결과 도출
- 뉴스 헤드라인의 특성인 '중립적 서술' 문제를 해결하기 위해 Aggregation 단계에서 Neutral 점수에 0.3 가중치를 곱해 하향 조정
- 30분 주기 Scheduled Deployment를 통해 데이터 신선도와 시스템 리소스 효율성 간의 균형 달성
실천 포인트
- 텍스트 그룹화 시 LLM 라벨링 전 Embedding 기반 Clustering을 선행하여 비용 절감 및 의미적 응집도 확보 - 정형 데이터와 비정형 데이터가 혼재된 초기 모델 설계 시 JSONB 타입을 활용하여 스키마 유연성 확보 - 도메인 특성상 특정 클래스(예: Neutral)가 과하게 검출될 경우, 가중치 기반의 Down-weighting 로직 검토 - 시계열 데이터 시각화 구현 시 사용자가 직접 탐색 가능한 Time Scrubber 기능 도입 고려