피드로 돌아가기
My LLM Keeps Failing in Production. Here's What I Built to Fix It Automatically.
Dev.toDev.to
AI/ML

회귀 테스트 기반의 자동 Prompt 수정 및 검증 시스템 LangHeal 구축

My LLM Keeps Failing in Production. Here's What I Built to Fix It Automatically.

Hadi Askari2026년 4월 28일6intermediate

Context

LLM RAG 파이프라인의 Schema Violation 및 Edge Case 발생 시 수동으로 Prompt를 수정하는 반복적 루프의 한계 존재. Observability 도구를 통한 장애 식별은 가능하나, 수정 사항이 기존 정상 케이스를 파괴하는 Regression 문제를 방지할 체계적 검증 수단 부재.

Technical Solution

  • Langfuse API 연동을 통한 특정 Threshold 이하의 Failure Trace 자동 추출 및 LLM-as-a-judge 기반의 Failure Mode 분류
  • 수정 비용 및 영향도에 따른 계층적 해결책 생성(JSON Schema 강화 $\rightarrow$ Few-shot 추가 $\rightarrow$ Routing Rule 설정 $\rightarrow$ Fine-tuning 순)
  • 최대 50개의 과거 Failure Case를 Sliding Window 방식으로 재현하여 수정안의 안정성을 검증하는 Regression Suite 구축
  • 배포 스크립트에 Commit ID와 Deployment Timestamp를 기록하는 Webhook을 추가하여 Historical Sample의 Drift 현상 방지
  • 인간 검토자(Human-in-the-loop)의 승인을 거친 정제 데이터만 Fine-tuning 학습셋으로 활용하는 파이프라인 설계

- LLM Prompt 수정 시 기존 성공 케이스를 포함한 최소 50개 이상의 Regression Test Set 확보 여부 확인 - 단순 Prompt 수정 외에 Routing Rule이나 Tool Definition 변경 등 해결책의 우선순위 계층화 적용 - 모델 버전 변경 및 배포 시점과 테스트 데이터의 버전 동기화 체계 구축

원문 읽기