Blind Gemini Judge 기반 Agentic Workflow A/B 테스트 자동화 체계 구축

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Frank Brsrk2026년 4월 22일2분intermediate

AI 요약

Context

Agent 개발 시 벤치마크 데이터에 대한 신뢰도 문제와 단순 Prompt 변경에 따른 출력 품질 변화 측정의 어려움 존재. 특히 Reasoning Scaffold 도입 시 실제 Task 수행 능력의 향상 여부를 객관적으로 검증할 정량적 평가 체계 필요.

Technical Solution

Chat Trigger를 통한 단일 Prompt 입력 후 두 개의 GPT-4o Agent로 분기하는 Fan-out 구조 설계
Plain GPT-4o와 Ejentum Reasoning Scaffold가 적용된 Agent 간의 응답 결과 비교를 위한 A/B 테스트 환경 구성
Gemini Flash를 Blind Evaluator로 배치하여 응답 주체를 숨긴 상태에서 객관적 평가 수행
Specificity, Posture, Depth, Actionability, Honesty 등 5개 차원의 다각도 평가 지표 설정 및 JSON 구조의 정형 데이터 도출
Reasoning, Anti-deception, Memory, Code 등 다양한 Harness Mode를 HTTP Tool JSON Body를 통해 동적으로 제어하는 유연한 설계
Low-complexity Task의 Tie 결과와 Dual-load Prompt의 변별력 차이를 통해 Scaffold의 유효성 검증

실천 포인트

- LLM 응답 평가 시 편향 제거를 위해 평가 모델에 응답 출처를 숨기는 Blind Test 도입 검토 - 단순 정성 평가 대신 다차원 평가 지표(Dimensions)를 설정하여 정형 JSON 데이터로 수집 - 단일 Prompt 최적화보다 Reasoning Scaffold와 같은 구조적 레이어 추가 시의 성능 차이를 A/B 테스트로 검증 - 복합 인지 부하(Dual-load) 상황을 포함한 Edge Case 테스트 셋 구성으로 모델의 한계 지점 파악

태그

#Reasoning Scaffold #LLM Evaluation #Blind Evaluation #A/B Testing #Agentic Workflow

원문 읽기