피드로 돌아가기
Dimensionality Reduction in Machine Learning: PCA and t-SNE.
Dev.toDev.to
AI/ML

PCA와 t-SNE를 통한 고차원 데이터의 효율적 차원 축소 및 시각화 전략

Dimensionality Reduction in Machine Learning: PCA and t-SNE.

Kelvin2026년 5월 1일5intermediate

Context

고차원 데이터셋의 과도한 Feature 수로 인한 연산 비용 증가와 시각적 분석의 한계 발생. 데이터의 핵심 정보 손실을 최소화하며 차원을 축소하여 분석 효율을 높여야 하는 필요성 대두.

Technical Solution

  • Linear Projection 기반의 PCA 도입을 통한 데이터 분산 최대화 및 주요 성분 추출
  • Standard Scaling 적용을 통한 Feature 간 스케일 차이에 의한 가중치 왜곡 방지
  • Covariance Matrix와 Eigenvalue 분석을 기반으로 분산 설명력이 높은 상위 K개 주성분 선정
  • Local Structure 보존을 위해 KL Divergence를 최소화하는 비선형 t-SNE 알고리즘 적용
  • 고차원 공간의 Pairwise Similarity를 저차원 공간으로 투영하여 데이터 클러스터링 패턴 가시화
  • 분석 목적에 따라 전처리용 PCA와 탐색적 분석용 t-SNE를 분리하여 운용하는 파이프라인 설계

1. PCA 적용 전 StandardScaler를 통한 데이터 정규화 여부 확인

2. Cumulative Variance Plot을 통해 정보 손실을 최소화하는 최적의 n_components 수치 결정

3. t-SNE 사용 시 대규모 데이터셋에 따른 연산 시간 증가를 고려하여 적절한 샘플링 수행

4. Perplexity 파라미터 조정을 통한 데이터 밀도 및 클러스터링 결과 최적화 검토

원문 읽기