정량적 지표의 한계를 극복하는 Error Analysis 기반의 AI Eval Taxonomy 설계

AI Evals, Part 2: Error Analysis The Unglamorous Superpower Behind Good Evals

Vasyl2026년 6월 12일6분intermediate

AI 요약

Context

대시보드 중심의 정량적 Metric 측정 방식이 실제 사용자 경험의 실패 사례를 포착하지 못하는 Comprehension Gap 발생. 가설에 기반한 단순 Correctness Score 측정으로 인해 실제 제품의 결함을 간과하는 설계적 한계 직면.

50~100개의 실제 Production Output 샘플을 통한 정성적 데이터 분석으로 정량적 측정의 기준점 설정
Open-coding 기법을 적용하여 실패 사례별 구체적인 텍스트 메모를 작성하고 데이터의 실제 양상을 레이블링
개별 실패 사례를 클러스터링하여 정량적 평가 지표의 기준이 되는 Failure Taxonomy 구축
Taxonomy 기반의 Rubric 설계를 통해 Context Accuracy, Register, Plausibility 등 도메인 특화 평가 축(Axis) 정의
/ai-quality 내부 페이지를 통한 실시간 Trace 뷰어 구축으로 Production Failure를 Taxonomy에 지속 반영하는 Feedback Loop 설계

실천 포인트

1. Metric 설정 전 최소 50건의 실제 실패 사례를 정성적으로 분석했는가?

2. 'Bad Output'과 같은 모호한 표현 대신 'Ignored Sentence Context'처럼 실행 가능한 구체적 레이블을 사용했는가?

3. 수치형 Score를 매기기 전 Open-coding을 통해 실패의 원인을 먼저 텍스트로 기술했는가?

4. 두 명 이상의 엔지니어가 교차 레이블링을 수행하여 Quality 정의의 일관성을 검증했는가?

태그