LLM Agent Eval의 Overfitting 방지를 위한 Trace-Verdict 결합 구조 설계

Goodhart's Law Comes for Your Agent Evals: Why Your Green Dashboard Stops Meaning Anything

Saurav Bhattacharya2026년 6월 21일6분intermediate

AI 요약

Context

Agent Eval Suite가 배포 결정의 유일한 지표가 됨에 따라, 실제 품질 개선보다 테스트 통과를 위한 Prompt 최적화에 치중하는 Goodhart's Law 현상 발생. 단순 Boolean 기반의 Pass/Fail 판정은 내부 추론 과정의 블랙박스화를 초래하여 대시보드의 신뢰도를 저하시키는 한계 노출.

Technical Solution

agent-eval의 Verdict(결과 판정)와 AgentLens의 Trace(실행 경로)를 1:1로 바인딩하여 모든 통과 사례에 대한 증거 기반 감사 구조 설계
Boolean 반환 방식에서 TraceId와 Score를 포함한 GatedResult 객체 반환 구조로 변경하여 판정 근거의 가시성 확보
테스트 케이스를 Regression Test 세트와 Held-out 세트로 엄격히 분리하여, 디버깅에 사용된 케이스가 평가 지표를 오염시키는 Overfitting 방지
실제 Production Trace에서 새로운 테스트 케이스를 지속적으로 추출하여 고정된 테스트 셋의 한계를 극복하고 평가 대상의 동적 최신성 유지
Eval Assertion 수정 시 단순 수정을 금지하고 Trace 기반의 정당성 입증과 코드 리뷰 과정을 거치는 변경 관리 프로세스 도입

실천 포인트

- [ ] Eval Gate의 반환 값에 Trace ID를 포함하여 '왜 통과했는가'에 대한 즉각적인 추적 경로를 제공하는가? - [ ] 디버깅 및 Prompt 튜닝에 사용된 테스트 케이스를 평가 세트에서 즉시 제외하고 Regression 세트로 이동시키는가? - [ ] 상상 속의 케이스가 아닌 실제 Production Trace를 기반으로 Evaluation Set을 지속적으로 업데이트하는가? - [ ] Eval Threshold나 Assertion 변경 시 Trace 기반의 근거를 포함한 PR 리뷰 과정을 거치는가?

태그

#LLM Evaluation #Goodhart's Law #Agentic Workflow #Observability #Overfitting

원문 읽기