피드로 돌아가기
No Agent Grades Its Own Homework
Dev.toDev.to
AI/ML

Self-preference Bias 제거를 위한 AI Agent 상호 견제 아키텍처 설계

No Agent Grades Its Own Homework

Odilon HUGONNOT2026년 6월 28일4intermediate

Context

단일 LLM이 코드 생성과 리뷰를 동시에 수행할 때 발생하는 Self-preference Bias로 인한 검증 무력화 문제 분석. 작성자가 자신의 결과물을 긍정적으로 평가하는 경향으로 인해 단순한 Write-Review 루프는 기술적 정당화에 그치는 한계 노출.

Technical Solution

  • 작성자와 리뷰어의 완전 분리를 통해 상호 독립성을 확보한 Blind Reviewer 구조 설계
  • 스타일 인식 방지를 위해 작성 모델과 서로 다른 Model Family를 리뷰어로 배치하는 전략 채택
  • 리뷰어에게 구현 프롬프트 및 작성자 신원 정보를 배제한 Clean Context 제공으로 편향성 차단
  • 모든 지적 사항에 대해 grep, Sandbox run, Data-flow trace 등 객관적 근거(Receipt) 제출을 강제하는 검증 로직 도입
  • Critical Finding에 대해 반박만을 목적으로 하는 Independent Skeptics 패널을 구성하여 False Alarm 제거
  • Machine-level Gate(Build, Lint, Test) 통과 후 모델의 판단을 수행하는 계층적 검증 파이프라인 구축

- AI Agent 설계 시 작성(Writer)과 검증(Reviewer) 역할을 엄격히 분리했는가 - 리뷰어 모델이 작성 모델과 다른 계열의 LLM인지 확인했는가 - LLM의 정성적 판단 전, 정적 분석 및 테스트 결과와 같은 객관적 증거(Receipt)가 선행되는가 - 최종 승인 전, 결함을 부정하려는 시도(Refutation)를 거치는 프로세스가 포함되었는가

원문 읽기