Representation 중심 설계를 통한 레시피 문서 Clustering 최적화

Finding meaning in text, an experiment in document clustering

sidharth2026년 4월 11일7분intermediate

AI 요약

Context

Food.com의 레시피 타이틀을 기반으로 한 자동 카테고리 분류 과제 수행. 기존 Bag-of-words 방식의 단순 빈도 기반 인코딩으로는 단어의 의미적 맥락을 포착하지 못해 서로 다른 도메인의 데이터가 동일 클러스터로 묶이는 한계 발생.

CountVectorizer 기반 Bag-of-words의 단순 빈도 측정 방식에서 탈피하여 의미론적 벡터 공간 확보
'all-MiniLM-L6-v2' Pre-trained 모델을 통한 Sentence Embedding 도입으로 단어 간 의미적 관계 및 가중치 반영
Euclidean Distance 기반의 k-means 외에 Cosine Distance 기반 DBSCAN 및 Hierarchical Clustering 비교 분석
데이터 노이즈 제거를 위해 중복 제거, 5자 미만 단어 배제 및 상위 300개 태그 기반의 데이터 Filtering 수행
최종적으로 결과 해석력이 가장 높은 Hierarchical Clustering을 통해 도메인 특성에 맞는 클러스터 구조 설계

실천 포인트

1. 단순 빈도 기반 인코딩의 한계 검토 및 Sentence Embedding 도입 고려

2. 거리 측정 방식(Euclidean vs Cosine)에 따른 클러스터링 알고리즘 적합성 검증

3. 모델 성능 고도화를 위한 도메인 특화 Pre-trained 모델의 Fine-tuning 가능성 검토

4. 데이터 셋의 편향을 줄이기 위한 상위 태그 기반 Filtering 전략 적용

태그