Multi-agent Deliberation을 통한 PR Blocker 검출률 2.8배 향상

6 months solo on a multi-agent PR reviewer. 10.93 vs 3.80 blockers/PR (claude alone) on my benchmark — please test on real PRs and tell me where it's wrong

Baessi2026년 5월 10일1분intermediate

AI 요약

Context

Single-agent LLM 기반 코드 리뷰 시 Critical한 Blocker를 Minor 이슈로 오분류하는 정밀도 한계 발생. 단일 모델의 관점에 의존함에 따라 발생하는 검토 누락 문제를 해결하기 위한 구조적 개선 필요.

Technical Solution

Claude, GPT, Gemini 3종 모델을 활용한 Multi-agent Council 구조 설계
모델 간 상호 검토 및 토론을 수행하는 Deliberation 프로세스 도입을 통한 관점 다각화
.conclave/prd.md 파일을 참조하는 PRD-aware Review 메커니즘 구축으로 스펙 미준수 사항을 First-class Blocker로 처리
TS, Node 20, Cloudflare Workers 및 D1 기반의 Serverless 아키텍처 채택
Mastra 프레임워크를 활용한 에이전트 오케스트레이션 구현
2,691개의 테스트 케이스를 통한 기능 검증 및 안정성 확보

실천 포인트

1. LLM 리뷰어 도입 시 단순 API 호출 대신 Multi-agent 교차 검증 구조 검토

2. 코드 레벨 분석을 넘어 PRD와 같은 설계 문서를 Context로 주입하여 비즈니스 로직 정합성 검증

3. 오탐(False Positive) 사례를 수집하여 Failure-catalog 기반의 프롬프트 최적화 반복 수행

태그

#PRD-aware Review #LLM Deliberation #Serverless architecture #Agentic Workflow #Multi-Agent-System

원문 읽기