피드로 돌아가기
Dev.toAI/ML
원문 읽기
DQS 필터링과 Batch Query 도입으로 예측 정확도 향상 및 성능 8배 개선
Building a Horse Racing AI Pipeline: PostgreSQL + Claude for Automated Race Predictions
AI 요약
Context
데이터 품질 불균형과 N+1 Query 문제로 인한 낮은 예측 정확도 및 평가 속도 저하 발생. 단순한 모델 튜닝보다 데이터 파이프라인의 근본적인 정제가 필요한 상황 분석.
Technical Solution
- 15개 필드 기반의 Data Quality Score(DQS) 산출 로직 구현을 통한 저품질 데이터 사전 제거
- 8개 핵심 지표에 가중치를 부여한 Ranking Score 설계를 통한 정량적 피처 엔지니어링 수행
- Claude Haiku 도입 및 Prompt Injection 방지를 위한 USER_DATA 블록 구조의 추론 레이어 설계
- 개별 쿼리 호출 방식을 In-clause 기반의 Batch Query 및 Map 기반 O(1) Lookup 구조로 전환
- GitHub Actions와 Supabase를 연동한 주간 단위 자동화된 Accuracy Evaluation 파이프라인 구축
실천 포인트
1. ML 파이프라인 구축 시 데이터 누락 여부를 정량화한 Quality Score 필터를 최전방에 배치할 것
2. AI 추론 결과의 신뢰성 확보를 위해 감사 가능한(Auditable) 설명 생성 레이어를 분리할 것
3. 반복적인 DB 조회가 발생하는 루프 내에서는 반드시 Batch Fetch 및 In-memory Map 캐싱을 검토할 것