피드로 돌아가기
Dev.toAI/ML
원문 읽기
Covariance Matrix 기반 차원 축소로 데이터 분산 95% 이상 보존
PCA (Principal Component Analysis): Finding the Hidden Structure in High‑Dimensional Data
AI 요약
Context
고차원 데이터셋에서 발생하는 Feature Redundancy로 인한 모델 학습 속도 저하 및 Overfitting 위험 존재. 다량의 변수로 인한 데이터 시각화 불가능 및 노이즈 포함 문제 해결 필요.
Technical Solution
- StandardScaler를 통한 Feature Scaling으로 특정 변수의 Scale 지배 현상 방지 및 데이터 중심화 수행
- Covariance Matrix 계산을 통해 변수 간 상관관계를 파악하고 데이터의 분산 구조 분석
- Eigenvalue Decomposition을 활용하여 분산이 최대화되는 Orthogonal한 Eigenvector(Principal Component) 추출
- Explained Variance Ratio 기반의 Top-k Component 선택으로 정보 손실 최소화 및 차원 축소 수행
- Original Feature Space에서 Low-dimensional Space로의 Linear Projection을 통한 데이터 변환
- 비선형 구조 데이터의 경우 Autoencoder 또는 t-SNE 도입을 고려하는 Trade-off 설계
실천 포인트
1. PCA 적용 전 반드시 StandardScaler를 통한 정규화 수행 여부 확인
2. Explained Variance Ratio 합계가 90~95%가 되는 지점의 k-component 선정
3. 데이터의 분포가 비선형(Spiral, Circle 등)일 경우 PCA 대신 Non-linear dimensionality reduction 검토
4. 모델 해석력이 중요한 도메인에서는 PC가 원본 Feature의 선형 조합임을 인지하고 적용