Garbage In Garbage Out 방지를 위한 ML 전처리 필수 단계 EDA 분석

(EDA Part-1) EDA (Exploratory Data Analysis) Explained With Real Life — Why Looking at Your Data Is the Most Important Step in Machine Learning

Shivappa2026년 4월 16일4분beginner

AI 요약

Context

데이터에 대한 사전 분석 없이 모델 학습을 진행할 경우 발생하는 Production 단계의 예측 실패 및 모델 붕괴 위험 분석. 데이터 분포와 품질을 무시한 상태에서 달성한 높은 Accuracy가 실제 환경에서 무의미해지는 한계점 지적.

Summary Statistics를 통한 평균, 중앙값, 표준편차 등 데이터 기초 체력 검증으로 기본 분포 파악
Data Visualization 기반의 Histogram, Scatter plot, Box plot 활용을 통한 수치적 맹점 및 Outlier 식별
Data Cleaning 프로세스 구축으로 결측치, 중복 데이터, 잘못된 데이터 타입을 제거하여 학습 데이터 정제
Feature Correlation 분석을 통한 불필요한 Noise 변수 제거 및 Lean한 모델 설계를 위한 Feature Selection 수행
Normal Distribution 등 모델별 전제 조건 검토를 통한 데이터 변환(Transformation) 필요성 판단

실천 포인트

1. 데이터 딕셔너리를 기반으로 각 Column의 실질적 의미 파악 여부 확인

2. 결측치, 중복값, 논리적 오류값(예: 나이 250세) 존재 여부 전수 조사

3. Target 변수와 Feature 간의 상관관계 분석을 통한 불필요한 변수 제거

4. 학습 모델이 요구하는 데이터 분포(정규분포 등)와 실제 분포의 일치 여부 검증

태그