피드로 돌아가기
Dev.toAI/ML
원문 읽기
Blind Gemini Judge 기반 Agentic Workflow A/B 테스트 자동화 체계 구축
Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.
AI 요약
Context
Agent 개발 시 벤치마크 데이터에 대한 신뢰도 문제와 단순 Prompt 변경에 따른 출력 품질 변화 측정의 어려움 존재. 특히 Reasoning Scaffold 도입 시 실제 Task 수행 능력의 향상 여부를 객관적으로 검증할 정량적 평가 체계 필요.
Technical Solution
- Chat Trigger를 통한 단일 Prompt 입력 후 두 개의 GPT-4o Agent로 분기하는 Fan-out 구조 설계
- Plain GPT-4o와 Ejentum Reasoning Scaffold가 적용된 Agent 간의 응답 결과 비교를 위한 A/B 테스트 환경 구성
- Gemini Flash를 Blind Evaluator로 배치하여 응답 주체를 숨긴 상태에서 객관적 평가 수행
- Specificity, Posture, Depth, Actionability, Honesty 등 5개 차원의 다각도 평가 지표 설정 및 JSON 구조의 정형 데이터 도출
- Reasoning, Anti-deception, Memory, Code 등 다양한 Harness Mode를 HTTP Tool JSON Body를 통해 동적으로 제어하는 유연한 설계
- Low-complexity Task의 Tie 결과와 Dual-load Prompt의 변별력 차이를 통해 Scaffold의 유효성 검증
실천 포인트
- LLM 응답 평가 시 편향 제거를 위해 평가 모델에 응답 출처를 숨기는 Blind Test 도입 검토 - 단순 정성 평가 대신 다차원 평가 지표(Dimensions)를 설정하여 정형 JSON 데이터로 수집 - 단일 Prompt 최적화보다 Reasoning Scaffold와 같은 구조적 레이어 추가 시의 성능 차이를 A/B 테스트로 검증 - 복합 인지 부하(Dual-load) 상황을 포함한 Edge Case 테스트 셋 구성으로 모델의 한계 지점 파악