피드로 돌아가기
Dev.toAI/ML
원문 읽기
PCA와 t-SNE를 통한 고차원 데이터의 효율적 차원 축소 및 시각화 전략
Dimensionality Reduction in Machine Learning: PCA and t-SNE.
AI 요약
Context
고차원 데이터셋의 과도한 Feature 수로 인한 연산 비용 증가와 시각적 분석의 한계 발생. 데이터의 핵심 정보 손실을 최소화하며 차원을 축소하여 분석 효율을 높여야 하는 필요성 대두.
Technical Solution
- Linear Projection 기반의 PCA 도입을 통한 데이터 분산 최대화 및 주요 성분 추출
- Standard Scaling 적용을 통한 Feature 간 스케일 차이에 의한 가중치 왜곡 방지
- Covariance Matrix와 Eigenvalue 분석을 기반으로 분산 설명력이 높은 상위 K개 주성분 선정
- Local Structure 보존을 위해 KL Divergence를 최소화하는 비선형 t-SNE 알고리즘 적용
- 고차원 공간의 Pairwise Similarity를 저차원 공간으로 투영하여 데이터 클러스터링 패턴 가시화
- 분석 목적에 따라 전처리용 PCA와 탐색적 분석용 t-SNE를 분리하여 운용하는 파이프라인 설계
실천 포인트
1. PCA 적용 전 StandardScaler를 통한 데이터 정규화 여부 확인
2. Cumulative Variance Plot을 통해 정보 손실을 최소화하는 최적의 n_components 수치 결정
3. t-SNE 사용 시 대규모 데이터셋에 따른 연산 시간 증가를 고려하여 적절한 샘플링 수행
4. Perplexity 파라미터 조정을 통한 데이터 밀도 및 클러스터링 결과 최적화 검토