Cross-lab Routing 기반 3-Agent Blind Eval로 LLM self-preference 한계 극복

I open-sourced a 3-agent blind eval team. Any agent runtime can call it for pre-commitment review of its own plans.

Frank Brsrk2026년 5월 10일12분advanced

AI 요약

Context

LLM이 자신의 계획을 스스로 평가할 때 발생하는 self-preference 및 blind spot으로 인한 신뢰성 저하 문제 직면. 단일 모델이 여러 역할을 수행하는 'Prompt Theater' 방식으로는 모델 고유의 인지적 편향을 제거할 수 없는 구조적 한계 존재.

Technical Solution

Cross-lab Routing을 통한 서로 다른 RLHF prior 및 학습 분포를 가진 모델(gpt-5-nano, Claude Opus 4, GLM 4.7) 배치로 상관관계 오류(Correlated Failure) 최소화
Steelman, Stress-test, Gap-finder로 역할을 엄격히 분리하고 각 Agent에 Tool Lockout을 적용하여 역할 이탈 및 도구 오용 원천 차단
Synthesizer Node를 제거하고 3개 모델의 Raw JSON 응답을 그대로 반환하여, 모델 간 의견 충돌(Integration Tension)을 핵심 신호로 활용하는 설계
Input Schema에 Goal, Steps, Assumptions, Expected Risks 4개 필드를 강제하여 Implicit Reasoning을 Explicit하게 전환하는 구조적 규율 적용
HTTP Endpoint 기반의 Callable Primitive로 설계하여 LangGraph, AutoGen 등 다양한 Agent Runtime에서 Pre-commitment Review 단계로 통합 가능

실천 포인트

1. Agent 설계 시 단순 역할 부여를 넘어 Tool Lockout을 통해 실행 권한을 물리적으로 제한했는가?

2. 합의(Consensus)를 위해 결과를 요약하는 Synthesizer를 두어 중요한 충돌 신호를 제거하고 있지는 않은가?

3. 서로 다른 학습 데이터셋과 정렬(Alignment) 기준을 가진 모델들을 Cross-lab으로 배치하여 편향을 상쇄했는가?

4. 입력 단계에서 필수 필드 구조를 강제하여 모델의 암묵적 추론을 명시적 단계로 끌어냈는가?

태그

#Cross-lab Routing #Pre-commitment Review #Blind Evaluation #Tool Lockout #Multi-Agent-System

원문 읽기