피드로 돌아가기
XGBoost: When Gradient Boosting Meets Regularization
Dev.toDev.to
AI/ML

Regularization과 2차 근사 최적화 기반의 Tabular 데이터 예측 성능 극대화

XGBoost: When Gradient Boosting Meets Regularization

jacobjerryarackal2026년 5월 15일9intermediate

Context

기존 Gradient Boosting 모델의 Overfitting 문제와 복잡한 전처리 요구 사항으로 인한 학습 효율 저하 발생. 특히 Non-linear 관계와 Missing Value 처리에 대한 아키텍처적 한계 존재.

Technical Solution

  • Regularized Objective Function 도입을 통한 모델 복잡도 제어 및 Overfitting 방지
  • Newton's method 기반의 2차 Taylor Approximation 적용으로 Tree Splitting의 정밀도 및 수렴 속도 향상
  • Gain 기반의 Pruning 메커니즘을 통한 불필요한 Leaf 제거 및 트리 구조 최적화
  • Column Subsampling 전략 채택으로 Training 속도 개선 및 일반화 성능 확보
  • Weighted Quantile Sketches 구현을 통한 대규모 데이터셋의 효율적인 Split Point 탐색
  • Missing Value에 대한 학습 기반 Default Direction 할당으로 데이터 전처리 단계 최소화

1. Tabular 데이터 프로젝트 시작 시 Baseline 모델로 XGBoost 우선 검토

2. Overfitting 발생 시 n_estimators, max_depth 조정 및 subsample, colsample_bytree 파라미터 적용

3. 대규모 데이터셋 처리 시 tree_method='gpu_hist' 설정을 통한 학습 가속화 적용

원문 읽기