회귀 테스트 기반의 자동 Prompt 수정 및 검증 시스템 LangHeal 구축

My LLM Keeps Failing in Production. Here's What I Built to Fix It Automatically.

Hadi Askari2026년 4월 28일6분intermediate

AI 요약

Context

LLM RAG 파이프라인의 Schema Violation 및 Edge Case 발생 시 수동으로 Prompt를 수정하는 반복적 루프의 한계 존재. Observability 도구를 통한 장애 식별은 가능하나, 수정 사항이 기존 정상 케이스를 파괴하는 Regression 문제를 방지할 체계적 검증 수단 부재.

Technical Solution

Langfuse API 연동을 통한 특정 Threshold 이하의 Failure Trace 자동 추출 및 LLM-as-a-judge 기반의 Failure Mode 분류
수정 비용 및 영향도에 따른 계층적 해결책 생성(JSON Schema 강화 $\rightarrow$ Few-shot 추가 $\rightarrow$ Routing Rule 설정 $\rightarrow$ Fine-tuning 순)
최대 50개의 과거 Failure Case를 Sliding Window 방식으로 재현하여 수정안의 안정성을 검증하는 Regression Suite 구축
배포 스크립트에 Commit ID와 Deployment Timestamp를 기록하는 Webhook을 추가하여 Historical Sample의 Drift 현상 방지
인간 검토자(Human-in-the-loop)의 승인을 거친 정제 데이터만 Fine-tuning 학습셋으로 활용하는 파이프라인 설계

실천 포인트

- LLM Prompt 수정 시 기존 성공 케이스를 포함한 최소 50개 이상의 Regression Test Set 확보 여부 확인 - 단순 Prompt 수정 외에 Routing Rule이나 Tool Definition 변경 등 해결책의 우선순위 계층화 적용 - 모델 버전 변경 및 배포 시점과 테스트 데이터의 버전 동기화 체계 구축

태그

#LLM Observability #Human-in-the-loop #Prompt Engineering #Regression Testing #RAG

원문 읽기