피드로 돌아가기
6 months solo on a multi-agent PR reviewer. 10.93 vs 3.80 blockers/PR (claude alone) on my benchmark — please test on real PRs and tell me where it's wrong
Dev.toDev.to
AI/ML

Multi-agent Deliberation을 통한 PR Blocker 검출률 2.8배 향상

6 months solo on a multi-agent PR reviewer. 10.93 vs 3.80 blockers/PR (claude alone) on my benchmark — please test on real PRs and tell me where it's wrong

Baessi2026년 5월 10일1intermediate

Context

Single-agent LLM 기반 코드 리뷰 시 Critical한 Blocker를 Minor 이슈로 오분류하는 정밀도 한계 발생. 단일 모델의 관점에 의존함에 따라 발생하는 검토 누락 문제를 해결하기 위한 구조적 개선 필요.

Technical Solution

  • Claude, GPT, Gemini 3종 모델을 활용한 Multi-agent Council 구조 설계
  • 모델 간 상호 검토 및 토론을 수행하는 Deliberation 프로세스 도입을 통한 관점 다각화
  • .conclave/prd.md 파일을 참조하는 PRD-aware Review 메커니즘 구축으로 스펙 미준수 사항을 First-class Blocker로 처리
  • TS, Node 20, Cloudflare Workers 및 D1 기반의 Serverless 아키텍처 채택
  • Mastra 프레임워크를 활용한 에이전트 오케스트레이션 구현
  • 2,691개의 테스트 케이스를 통한 기능 검증 및 안정성 확보

1. LLM 리뷰어 도입 시 단순 API 호출 대신 Multi-agent 교차 검증 구조 검토

2. 코드 레벨 분석을 넘어 PRD와 같은 설계 문서를 Context로 주입하여 비즈니스 로직 정합성 검증

3. 오탐(False Positive) 사례를 수집하여 Failure-catalog 기반의 프롬프트 최적화 반복 수행

원문 읽기