피드로 돌아가기
The Stock Prophet: My Quest to Find (and Demystify) Machine Learning for Stock Prediction
Dev.toDev.to
AI/ML

Look-ahead Bias 제거 및 Log Return 도입을 통한 주가 예측 모델 최적화

The Stock Prophet: My Quest to Find (and Demystify) Machine Learning for Stock Prediction

Timevolt2026년 6월 20일7intermediate

Context

Raw Price 데이터를 이용한 단순 회귀 분석 모델의 높은 Overfitting 및 Look-ahead Bias 발생. 시계열 데이터의 특성을 무시한 Random Split 방식 채택으로 인해 검증 단계에서 데이터 누수(Data Leakage)가 발생하며 실전 예측 성능이 급격히 저하되는 한계 노출.

Technical Solution

  • 가격 데이터의 Non-stationary 특성 해결을 위해 Raw Price 대신 Log Return으로 타겟 변수 전환
  • 시계열 순서를 보존하는 Chronological Split 방식을 적용하여 미래 데이터가 학습셋에 포함되는 Look-ahead Bias 원천 차단
  • 시계열 데이터의 지연 효과를 반영하기 위해 1~5일치 Lagged Returns를 Feature로 생성하여 입력 데이터 구성
  • 복잡한 Deep Learning 모델 대신 비선형 관계 학습에 효율적이며 Noise에 강한 XGBoost Regressor 채택
  • 학습 데이터 80%와 테스트 데이터 20%를 시간 순으로 엄격히 분리하여 Out-of-sample 성능 검증 체계 구축

- 시계열 데이터 분리 시 `train_test_split`의 Random shuffle 옵션 사용 금지 - 금융 데이터 처리 시 Stationary 확보를 위해 Diff 또는 Log Return 변환 검토 - 데이터 누수 방지를 위해 Feature 생성 시 반드시 `.shift()`를 활용한 Lagging 적용 - 과적합 방지를 위해 모델 파라미터(max_depth, learning_rate)의 보수적 설정 및 Tree-based 모델 우선 고려

원문 읽기