피드로 돌아가기
How I Built Semantic Discussion Clustering Without Embeddings (and Why It Was Good Enough)
Dev.toDev.to
AI/ML

TF-IDF와 Cosine Similarity 기반의 저비용 Semantic Clustering 구현

How I Built Semantic Discussion Clustering Without Embeddings (and Why It Was Good Enough)

Mervin2026년 5월 26일1intermediate

Context

OpenAI Embeddings 및 Vector DB 도입 시 발생하는 고비용 구조 해결 필요성 증대. 저사양 VPS 환경에서 구동 가능한 효율적인 토론 그룹화 시스템 설계 요구.

Technical Solution

  • 비용 절감을 위해 Vector Search 대신 TF-IDF 기반의 텍스트 벡터화 방식 채택
  • Cosine Similarity 계산을 통한 문서 간 유사도 측정 및 Clustering 수행
  • 0.15에서 0.35 사이의 임계값 테스트를 통해 최적의 유사도 Threshold 0.25 도출
  • BullMQ를 활용한 Crawling 파이프라인 구축으로 비동기 데이터 처리 보장
  • Groq API를 통한 저비용 고속 Summary 생성 구조 설계
  • PostgreSQL을 활용한 최종 클러스터링 데이터 저장 및 관리

- 도메인 특성상 반복 키워드가 많다면 고비용 Embedding 대신 TF-IDF 검토 - 유사도 기반 그룹화 시 최적의 Threshold 설정을 위한 정밀한 실험 단계 필수 수행 - 요약 성능보다 속도와 비용이 우선인 경우 Groq와 같은 고성능 추론 엔진 고려

원문 읽기