Covariance Matrix 기반 차원 축소로 데이터 분산 95% 이상 보존

PCA (Principal Component Analysis): Finding the Hidden Structure in High‑Dimensional Data

jacobjerryarackal2026년 5월 18일7분intermediate

AI 요약

Context

고차원 데이터셋에서 발생하는 Feature Redundancy로 인한 모델 학습 속도 저하 및 Overfitting 위험 존재. 다량의 변수로 인한 데이터 시각화 불가능 및 노이즈 포함 문제 해결 필요.

StandardScaler를 통한 Feature Scaling으로 특정 변수의 Scale 지배 현상 방지 및 데이터 중심화 수행
Covariance Matrix 계산을 통해 변수 간 상관관계를 파악하고 데이터의 분산 구조 분석
Eigenvalue Decomposition을 활용하여 분산이 최대화되는 Orthogonal한 Eigenvector(Principal Component) 추출
Explained Variance Ratio 기반의 Top-k Component 선택으로 정보 손실 최소화 및 차원 축소 수행
Original Feature Space에서 Low-dimensional Space로의 Linear Projection을 통한 데이터 변환
비선형 구조 데이터의 경우 Autoencoder 또는 t-SNE 도입을 고려하는 Trade-off 설계

실천 포인트

1. PCA 적용 전 반드시 StandardScaler를 통한 정규화 수행 여부 확인

2. Explained Variance Ratio 합계가 90~95%가 되는 지점의 k-component 선정

3. 데이터의 분포가 비선형(Spiral, Circle 등)일 경우 PCA 대신 Non-linear dimensionality reduction 검토

4. 모델 해석력이 중요한 도메인에서는 PC가 원본 Feature의 선형 조합임을 인지하고 적용

태그