피드로 돌아가기
Dev.toAI/ML
원문 읽기

Training-Serving Skew 해결을 통한 ms 단위 Real-time Feature Serving 구현
Real-Time AI Feature Engineering with Spark Structured Streaming and Databricks Feature Store
AI 요약
Context
학습 시점과 추론 시점의 데이터 불일치로 발생하는 Training-Serving Skew와 Data Leakage 문제 분석. Batch 파이프라인과 실시간 서비스 간 로직 분리로 인한 Feature Staleness 및 모델 성능 저하 해결 필요.
Technical Solution
- Unity Catalog 기반 Feature Store 도입을 통한 연산 로직의 단일화 및 데이터-로직 동시 관리 구조 설계
- Spark Structured Streaming의 Stateful Engine과 Watermarking(10분) 적용으로 Late Data 처리 및 윈도우 집계 정밀도 확보
- Point-in-Time Lookup 메커니즘을 통한 학습 데이터 생성 시점의 과거 상태 복원을 통한 Data Leakage 원천 차단
- Offline Delta Table과 Online Store의 이원화 구조를 통해 Batch Scoring과 Low-latency Serving 요구사항 동시 충족
- Model Version과 Training Set의 바인딩 설계를 통한 실험 재현성(Reproducibility) 보장 구조 구축
실천 포인트
1. SLA 100ms 미만 요구 시 Online Store를, 500ms 이상 시 Delta Table 직접 조회를 검토할 것
2. Event-time 기반 Watermark 설정을 통해 허용 가능한 Late-data 윈도우를 명확히 정의할 것
3. Feature 연산 로직을 코드와 데이터가 결합된 Feature Store에 저장하여 Logic Drift를 방지할 것