피드로 돌아가기
Dev.toAI/ML
원문 읽기
Garbage In Garbage Out 방지를 위한 ML 전처리 필수 단계 EDA 분석
(EDA Part-1) EDA (Exploratory Data Analysis) Explained With Real Life — Why Looking at Your Data Is the Most Important Step in Machine Learning
AI 요약
Context
데이터에 대한 사전 분석 없이 모델 학습을 진행할 경우 발생하는 Production 단계의 예측 실패 및 모델 붕괴 위험 분석. 데이터 분포와 품질을 무시한 상태에서 달성한 높은 Accuracy가 실제 환경에서 무의미해지는 한계점 지적.
Technical Solution
- Summary Statistics를 통한 평균, 중앙값, 표준편차 등 데이터 기초 체력 검증으로 기본 분포 파악
- Data Visualization 기반의 Histogram, Scatter plot, Box plot 활용을 통한 수치적 맹점 및 Outlier 식별
- Data Cleaning 프로세스 구축으로 결측치, 중복 데이터, 잘못된 데이터 타입을 제거하여 학습 데이터 정제
- Feature Correlation 분석을 통한 불필요한 Noise 변수 제거 및 Lean한 모델 설계를 위한 Feature Selection 수행
- Normal Distribution 등 모델별 전제 조건 검토를 통한 데이터 변환(Transformation) 필요성 판단
실천 포인트
1. 데이터 딕셔너리를 기반으로 각 Column의 실질적 의미 파악 여부 확인
2. 결측치, 중복값, 논리적 오류값(예: 나이 250세) 존재 여부 전수 조사
3. Target 변수와 Feature 간의 상관관계 분석을 통한 불필요한 변수 제거
4. 학습 모델이 요구하는 데이터 분포(정규분포 등)와 실제 분포의 일치 여부 검증