Algorithm 튜닝 대비 Feature Engineering 통한 R2 0.017 향상

69. Feature Engineering: Building Better Inputs

Akhilesh2026년 5월 12일20분intermediate

AI 요약

Context

모델의 하이퍼파라미터 최적화나 알고리즘 변경만으로는 학습 데이터의 잠재적 관계를 포착하는 데 한계가 존재함. 단순 데이터 입력 방식으로는 도메인 지식이 반영되지 않아 예측 정확도가 정체되는 병목 현상이 발생함.

Domain Knowledge를 수치화한 파생 변수 생성을 통한 모델의 학습 효율 증대
Tree-based 모델에는 Label Encoding을 적용하고 Linear 모델에는 순서 왜곡 방지를 위해 One-Hot Encoding 채택
High-cardinality 변수의 차원 폭발 방지를 위해 타겟 변수의 평균값으로 대체하는 Target Encoding 설계
Right-skewed 분포의 정규화를 위한 Log Transform 적용으로 모델의 수렴 속도 개선
Polynomial Features 생성을 통한 변수 간 상호작용(Interaction) 관계 명시적 정의
Feature Selection 프로세스를 통해 Noise 제거 및 학습 속도 최적화 도모

실천 포인트

1. 변수 간 비율(Ratio)이나 합계 등 도메인 관점의 파생 변수 생성 여부 검토

2. 변수 Cardinality에 따른 Encoding 전략(One-Hot vs Target) 선택

3. 데이터 분포의 왜곡도(Skewness) 확인 후 Log/Power Transform 적용

4. 변수 생성 후 Feature Selection을 통한 불필요한 Noise 제거 단계 수행

태그