Mixture Models 도입으로 p99 오차 45%에서 5% 미만으로 개선

Why your synthetic fintech data fails code review (and how mixture models fix it)

Joel Mendoza2026년 6월 12일2분intermediate

AI 요약

Context

기존 Faker 기반의 Uniform 또는 단일 Lognormal 분포 생성 방식은 실제 금융 데이터의 다봉성(Multimodal)을 반영하지 못하는 한계 노출. 이로 인해 p95~p99 구간에서 35~45%의 높은 편차가 발생하며 데이터 신뢰성 저하 초래.

Technical Solution

데이터 집단 내 마이크로 입금, 일반 입금, 고액 송금의 세 가지 서로 다른 모집단 존재 파악
단일 분포의 평균화 오류를 해결하기 위해 여러 Lognormal 분포를 결합한 Mixture of Lognormals 구조 채택
Scikit-learn의 GaussianMixture를 Log-amount 데이터에 적용하여 다중 성분 추출
BIC 기준 선택 시 라운드 수치(Round values)로 인한 Under-fitting 발생 확인 및 배제
Held-out 샘플 대상 Kolmogorov–Smirnov statistic 최소화 방식으로 최적의 컴포넌트 수(K) 결정
6-component Mixture 설계를 통한 데이터 분포의 정밀한 재현

실천 포인트

- 합성 데이터 생성 시 단일 Lognormal 분포 대신 Mixture Model 적용 검토 - 모델 복잡도 결정 시 BIC 대신 KS statistic 등 실제 샘플과의 거리 측정 지표 활용 - 데이터의 꼬리 부분(p95 이상) 편차를 별도로 측정하여 엣지 케이스 재현성 검증

태그

#Mixture Models #Kolmogorov-Smirnov #Data Distribution #Synthetic Data #GaussianMixture

원문 읽기