Eval Harness 기반의 규칙 준수형 PR Review 봇 설계 및 구축

What I learned building a tiny PR-review bot in 10 days

azaz101hassan2026년 6월 4일6분intermediate

AI 요약

Context

기존 AI 리뷰 도구들이 범용적 분석에 치중하여 팀별 고유 컨벤션 및 아키텍처 규칙을 반영하지 못하는 한계 존재. 정성적 판단에 의존하는 'Vibes-based' AI 툴링에서 벗어나 측정 가능하고 반복 가능한 시스템 기반의 리뷰 체계 필요성 대두.

Webhook 기반의 중복 리뷰 방지를 위해 NestJS, BullMQ, Redis를 조합한 Queue Pipeline 설계
모든 외부 API 호출 전 데이터베이스에 상태를 기록하는 Audit Log 구조를 통한 시스템 신뢰성 확보
Chroma 및 Voyage-code-3 기반의 Vector-indexed Knowledge Base를 구축하여 팀 전용 컨벤션으로 Context 제한
단순 프롬프트 수정의 효과를 정량적으로 검증하기 위한 Capture 및 Score 스크립트 중심의 Eval Harness 도입
LLM의 환각 및 Rate-limit 등 실패 모드를 대시보드 칩으로 시각화하여 운영 가시성 확보
500라인 이상의 대규모 PR을 필터링하는 Size Gate 적용으로 리뷰 품질 저하 방지

실천 포인트

1. AI 기능 도입 전 프롬프트 수정의 효과를 측정할 Eval Thermometer를 먼저 구축했는가

2. LLM의 실패 모드를 단순 로그가 아닌 운영자가 즉시 인지할 수 있는 형태로 시각화했는가

3. 외부 API 호출의 멱등성 확보를 위해 Queue 및 상태 관리 로직을 설계했는가

4. 도메인 특화 지식을 위해 RAG 기반의 Knowledge Base 범위가 적절히 제한되었는가

태그