K-Means 및 Hierarchical Clustering을 통한 데이터 패턴 추출 최적화

Unsupervised Machine Learning. K-Means & Hierarchical Clustering

Kelvin2026년 4월 30일3분beginner

AI 요약

Context

Labelled outcome이 없는 데이터셋에서 숨겨진 구조와 관계를 발견해야 하는 Unsupervised Learning 상황. 데이터 포인트 간의 유사도를 정량화하여 최적의 군집을 형성하는 알고리즘 선택의 필요성 존재.

Euclidean distance 기반의 K-Means 알고리즘을 적용하여 Centroid 중심의 Partition-based Clustering 구현
Elbow Curve 분석을 통한 Inertia 최소화 지점 식별로 최적의 K 값 결정
Dendrogram 구조의 Hierarchical Clustering을 통해 사전 정의 없이 계층적 클러스터 관계 분석
Ward's Method를 적용하여 군집 내 Variance 최소화를 통한 군집 응집도 향상
거리 행렬(Distance Matrix) 기반의 Agglomerative 방식으로 Bottom-up 클러스터 병합 프로세스 설계

실천 포인트

1. 데이터 스케일링 수행 여부 확인

2. Elbow Curve를 통한 K-Means의 최적 클러스터 수 검증

3. 데이터 분포의 계층적 구조 파악이 필요한 경우 Dendrogram 분석 검토

4. 거리 측정 기준(Euclidean, Manhattan, Cosine)이 비즈니스 도메인에 적합한지 평가

태그