Covariance Matrix와 Eigen-decomposition 기반의 고차원 데이터 압축

PCA From Scratch: Compress Data, Keep the Signal

Devanshu Biswas2026년 6월 23일1분intermediate

AI 요약

Context

100개 이상의 Feature를 가진 고차원 데이터셋의 시각화 및 학습 속도 저하 문제 발생. 데이터의 핵심 신호를 유지하면서 차원을 축소하는 효율적인 압축 메커니즘 필요.

Mean subtraction을 통한 Data Centering으로 데이터 분포의 중심을 원점으로 이동
Feature 간의 상관관계를 정의하는 Covariance Matrix 구축을 통한 분산 구조 분석
Eigen-decomposition을 적용하여 데이터 분산이 최대화되는 Eigenvectors(주성분 방향)와 Eigenvalues(분산 크기) 도출
Eigenvalue 기준 내림차순 정렬 후 상위 k개의 Principal Components만 선택하는 차원 축소 전략 수립
선택된 주성분 축으로 데이터를 Projection 하여 정보 손실을 최소화한 저차원 표현 생성
Linear Structure 기반의 변환을 위해 전처리 단계에서 Feature Scaling 적용

실천 포인트

1. Feature Scaling 적용 여부 확인

2. 데이터의 Linear Structure 존재 여부 검토

3. Explained Variance Ratio를 통한 최적의 k-component 수 결정

4. 시각화 및 Training Speed 향상을 위한 차원 축소 적용 검토

태그