피드로 돌아가기
LLM Evaluation in Production: Building the Eval Pipeline That Runs on Every Deploy
Dev.toDev.to
AI/ML

LLM Drift 방지를 위한 RAGAS 기반 상시 평가 파이프라인 구축

LLM Evaluation in Production: Building the Eval Pipeline That Runs on Every Deploy

Alok Ranjan Daftuar2026년 6월 17일3advanced

Context

embedding 모델 및 prompt 변경 시 성능 저하를 감지하지 못하는 Silent Drift 문제 발생. Ground Truth 기반의 전통적 테스트만으로는 실시간 쿼리 분포 변화와 semantic quality 저하를 포착하기 어려운 한계 존재.

Technical Solution

  • Faithfulness와 Answer Relevance를 활용한 Ground Truth 독립적 실시간 모니터링 체계 설계
  • Context Precision 및 Answer Correctness를 CI 단계의 Golden Dataset 기반 Regression Suite로 배치
  • LLM-as-Judge 도입 시 Positional/Verbosity Bias 제거를 위한 순서 랜덤화 및 모델 패밀리 교차 검증 적용
  • Judge 모델의 정밀도 확보를 위해 Cohen's Kappa 지표 기반 인간 라벨링 데이터 교차 검증 수행
  • 요청당 2-5s의 지연 시간을 방지하기 위한 Production Traffic 5% 비동기 샘플링 평가 구조 채택
  • PR 단계에서 Faithfulness와 Relevance 중심의 경량 Eval을 수행하여 배포 가속화 및 비용 최적화

1. LLM-as-Judge 사용 시 생성 모델과 평가 모델의 패밀리를 다르게 설정했는가?

2. CI 단계(Golden Dataset)와 CD 단계(Sampled Traffic)의 평가 지표를 분리하여 운영하는가?

3. 평가 프로세스를 비동기로 처리하여 사용자 응답 지연(Latency)에 영향을 주지 않는가?

4. Judge 모델의 버전 고정을 통해 Calibration Drift를 방지했는가?

원문 읽기