피드로 돌아가기
Dev.toAI/ML
원문 읽기
Covariance Matrix와 Eigen-decomposition 기반의 고차원 데이터 압축
PCA From Scratch: Compress Data, Keep the Signal
AI 요약
Context
100개 이상의 Feature를 가진 고차원 데이터셋의 시각화 및 학습 속도 저하 문제 발생. 데이터의 핵심 신호를 유지하면서 차원을 축소하는 효율적인 압축 메커니즘 필요.
Technical Solution
- Mean subtraction을 통한 Data Centering으로 데이터 분포의 중심을 원점으로 이동
- Feature 간의 상관관계를 정의하는 Covariance Matrix 구축을 통한 분산 구조 분석
- Eigen-decomposition을 적용하여 데이터 분산이 최대화되는 Eigenvectors(주성분 방향)와 Eigenvalues(분산 크기) 도출
- Eigenvalue 기준 내림차순 정렬 후 상위 k개의 Principal Components만 선택하는 차원 축소 전략 수립
- 선택된 주성분 축으로 데이터를 Projection 하여 정보 손실을 최소화한 저차원 표현 생성
- Linear Structure 기반의 변환을 위해 전처리 단계에서 Feature Scaling 적용
실천 포인트
1. Feature Scaling 적용 여부 확인
2. 데이터의 Linear Structure 존재 여부 검토
3. Explained Variance Ratio를 통한 최적의 k-component 수 결정
4. 시각화 및 Training Speed 향상을 위한 차원 축소 적용 검토