피드로 돌아가기
Dev.toAI/ML
원문 읽기
X 변동성 부족으로 인한 Regression Coefficient 추정 불안정성 해결
Seu modelo de regressão mente quando X não varia — e você provavelmente não percebe
AI 요약
Context
Linear Regression 모델 학습 시 Loss와 R² 지표가 정상임에도 불구하고 Coefficient 추정치가 불안정한 현상 발생. 이는 학습 데이터 내 독립 변수(X)의 Variance가 부족하여 모델이 X의 변화에 따른 Y의 영향을 정확히 분리하지 못하는 구조적 한계에 기인함.
Technical Solution
- Var(β̂₁) = σ² / Σ(xᵢ - x̄)² 공식을 통한 Coefficient Variance 분석으로 X의 변동성이 분모에 위치함을 파악
- 특정 지역/단일 루트 데이터와 같이 X의 범위가 좁은 Case를 배제하고 다양한 범위의 데이터를 확보하여 'Horizontal Evidence' 강화
- Outlier에 의한 가짜 변동성(False Confidence)을 차단하기 위한 High Leverage Point 필터링 적용
- 단순 선형 관계를 넘어선 비선형 패턴 식별을 위해 Model Selection 단계에서 비선형 모델 검토
- 다중 회귀 모델 설계 시 독립 변수 간의 Multicollinearity를 제거하여 각 변수의 독립적 기여도 확보
실천 포인트
1. 학습 데이터의 X-Variance가 충분한지 분포 확인
2. 단일 Outlier가 전체 Variance를 왜곡하여 추정치를 견인하는지 체크
3. 독립 변수 간 상관관계 분석을 통한 Multicollinearity 제거
4. 데이터 수집 범위(Time-window, Region) 확장으로 데이터 다양성 확보