피드로 돌아가기
Dev.toAI/ML
원문 읽기
Regularization과 2차 근사 최적화 기반의 Tabular 데이터 예측 성능 극대화
XGBoost: When Gradient Boosting Meets Regularization
AI 요약
Context
기존 Gradient Boosting 모델의 Overfitting 문제와 복잡한 전처리 요구 사항으로 인한 학습 효율 저하 발생. 특히 Non-linear 관계와 Missing Value 처리에 대한 아키텍처적 한계 존재.
Technical Solution
- Regularized Objective Function 도입을 통한 모델 복잡도 제어 및 Overfitting 방지
- Newton's method 기반의 2차 Taylor Approximation 적용으로 Tree Splitting의 정밀도 및 수렴 속도 향상
- Gain 기반의 Pruning 메커니즘을 통한 불필요한 Leaf 제거 및 트리 구조 최적화
- Column Subsampling 전략 채택으로 Training 속도 개선 및 일반화 성능 확보
- Weighted Quantile Sketches 구현을 통한 대규모 데이터셋의 효율적인 Split Point 탐색
- Missing Value에 대한 학습 기반 Default Direction 할당으로 데이터 전처리 단계 최소화
실천 포인트
1. Tabular 데이터 프로젝트 시작 시 Baseline 모델로 XGBoost 우선 검토
2. Overfitting 발생 시 n_estimators, max_depth 조정 및 subsample, colsample_bytree 파라미터 적용
3. 대규모 데이터셋 처리 시 tree_method='gpu_hist' 설정을 통한 학습 가속화 적용