피드로 돌아가기
Part 2: The Dataset - Labels, Heuristics, Synthetic Data, and Why AI Starts Before the Model
Dev.toDev.to
AI/ML

데이터 스키마 설계와 정규화를 통한 고성능 AI 분류기 기반 구축

Part 2: The Dataset - Labels, Heuristics, Synthetic Data, and Why AI Starts Before the Model

Prince Raj2026년 4월 17일7intermediate

Context

모델 아키텍처에만 집중하여 정제되지 않은 데이터를 입력하는 기존 AI 접근 방식의 한계 분석. 서로 다른 출처의 데이터셋이 가진 상이한 라벨 체계로 인한 학습 효율 저하 및 데이터 불균형 문제 직면.

Technical Solution

  • 5가지 핵심 도메인(Department, Sentiment, Lead Intent, Churn Risk, Intent)을 정의한 Canonical Schema 설계로 데이터 일관성 확보
  • 서로 다른 데이터 소스를 단일 포맷으로 변환하는 Schema Normalization 파이프라인 구축
  • 특정 라벨 기반으로 타 라벨을 추론하는 Domain-driven Heuristics 도입으로 라벨링 공수 절감 및 데이터 밀도 향상
  • 템플릿 기반 Synthetic Data Generation 및 스타일 노이즈 추가를 통한 Edge Case 및 데이터 불균형 해결
  • 의도별 라벨 균형을 유지하는 Stratified Split 방식을 적용한 Validation Set 구성으로 모델 평가 신뢰도 확보

Key Takeaway

AI 모델의 성능은 신경망 구조보다 입력 데이터의 정교한 Product Design과 엔지니어링 기반의 스키마 설계에 의해 결정됨


- 데이터 수집 전 모델이 예측해야 할 비즈니스 정답지(Canonical Schema)를 먼저 정의했는가 - 상이한 데이터 소스를 통합하기 위한 정규화 파이프라인이 설계되어 있는가 - 부족한 클래스 데이터를 보완하기 위한 Synthetic Data 생성 전략이 존재하는가 - 단순 무작위 분할이 아닌 라벨 분포를 고려한 Stratified Split을 적용했는가

원문 읽기