피드로 돌아가기
Your LLM Judge Costs More Than the Agent. Gate It in 40 Lines.
Dev.toDev.to
AI/ML

Deterministic Pre-gate 도입으로 LLM Judge 비용 50%에서 16%로 절감

Your LLM Judge Costs More Than the Agent. Gate It in 40 Lines.

Alexey Spinov2026년 6월 19일12intermediate

Context

에이전트 성능 검증을 위해 모든 Span에 LLM-as-judge를 적용함에 따라 평가 비용이 운영 비용의 상당 부분을 차지하는 오버헤드 발생. 단순한 모니터링 목적을 넘어 평가 계층이 전체 인프라 비용의 30% 이상을 점유하는 비효율적 구조의 한계 노출.

Technical Solution

  • LLM 호출 전 단계에 40라인 규모의 Deterministic Pre-gate 로직을 배치한 Tiered Architecture 설계
  • 모든 Span을 OK, BAD, UNCERTAIN 세 가지 상태로 분류하는 Triage 프로세스 구축
  • Tool 호출 여부, JSON 파싱 성공 여부 등 결정론적 규칙(Deterministic Rules)을 통한 1차 필터링 수행
  • 명확한 결과(OK/BAD)가 도출된 Span은 LLM Judge 호출을 완전히 배제하여 비용 제거
  • 규칙으로 판별 불가능한 UNCERTAIN 상태의 Tail 데이터만 고비용 LLM Judge로 에스컬레이션하는 구조 채택
  • 모델의 Self-reported confidence 값을 신뢰하지 않고 외부의 객관적 검증 규칙만을 사용한 신뢰성 확보

- 현재 운영 중인 LLM Judge의 비용이 전체 운영비의 20~25%를 초과하는지 정기적으로 감사 - LLM Judge에 전달하기 전, if 문만으로 판별 가능한 결정론적 규칙(JSON 파싱, API 상태 코드 등) 리스트업 - '정상/비정상/판단불가'의 3단계 분류 체계를 도입하여 LLM 호출 대상 Span을 최소화 - 모델이 스스로 출력한 신뢰도 점수보다는 실제 출력 값의 구조적 정합성을 우선 검증

원문 읽기