피드로 돌아가기
PCA From Scratch: Compress Data, Keep the Signal
Dev.toDev.to
AI/ML

Covariance Matrix와 Eigen-decomposition 기반의 고차원 데이터 압축

PCA From Scratch: Compress Data, Keep the Signal

Devanshu Biswas2026년 6월 23일1intermediate

Context

100개 이상의 Feature를 가진 고차원 데이터셋의 시각화 및 학습 속도 저하 문제 발생. 데이터의 핵심 신호를 유지하면서 차원을 축소하는 효율적인 압축 메커니즘 필요.

Technical Solution

  • Mean subtraction을 통한 Data Centering으로 데이터 분포의 중심을 원점으로 이동
  • Feature 간의 상관관계를 정의하는 Covariance Matrix 구축을 통한 분산 구조 분석
  • Eigen-decomposition을 적용하여 데이터 분산이 최대화되는 Eigenvectors(주성분 방향)와 Eigenvalues(분산 크기) 도출
  • Eigenvalue 기준 내림차순 정렬 후 상위 k개의 Principal Components만 선택하는 차원 축소 전략 수립
  • 선택된 주성분 축으로 데이터를 Projection 하여 정보 손실을 최소화한 저차원 표현 생성
  • Linear Structure 기반의 변환을 위해 전처리 단계에서 Feature Scaling 적용

1. Feature Scaling 적용 여부 확인

2. 데이터의 Linear Structure 존재 여부 검토

3. Explained Variance Ratio를 통한 최적의 k-component 수 결정

4. 시각화 및 Training Speed 향상을 위한 차원 축소 적용 검토

원문 읽기