피드로 돌아가기
Dev.toAI/ML
원문 읽기
Algorithm 튜닝 대비 Feature Engineering 통한 R2 0.017 향상
69. Feature Engineering: Building Better Inputs
AI 요약
Context
모델의 하이퍼파라미터 최적화나 알고리즘 변경만으로는 학습 데이터의 잠재적 관계를 포착하는 데 한계가 존재함. 단순 데이터 입력 방식으로는 도메인 지식이 반영되지 않아 예측 정확도가 정체되는 병목 현상이 발생함.
Technical Solution
- Domain Knowledge를 수치화한 파생 변수 생성을 통한 모델의 학습 효율 증대
- Tree-based 모델에는 Label Encoding을 적용하고 Linear 모델에는 순서 왜곡 방지를 위해 One-Hot Encoding 채택
- High-cardinality 변수의 차원 폭발 방지를 위해 타겟 변수의 평균값으로 대체하는 Target Encoding 설계
- Right-skewed 분포의 정규화를 위한 Log Transform 적용으로 모델의 수렴 속도 개선
- Polynomial Features 생성을 통한 변수 간 상호작용(Interaction) 관계 명시적 정의
- Feature Selection 프로세스를 통해 Noise 제거 및 학습 속도 최적화 도모
실천 포인트
1. 변수 간 비율(Ratio)이나 합계 등 도메인 관점의 파생 변수 생성 여부 검토
2. 변수 Cardinality에 따른 Encoding 전략(One-Hot vs Target) 선택
3. 데이터 분포의 왜곡도(Skewness) 확인 후 Log/Power Transform 적용
4. 변수 생성 후 Feature Selection을 통한 불필요한 Noise 제거 단계 수행