피드로 돌아가기
Serving cheap when two models agree: a measured cost lever
Dev.toDev.to
AI/ML

Cheap Model 간 Agreement 검증을 통한 Frontier 모델 비용 91% 절감

Serving cheap when two models agree: a measured cost lever

Tom Jones2026년 6월 29일4intermediate

Context

단순 작업은 Cheap Model, 복잡한 작업은 Frontier Model로 분기하는 Cost Efficient 시스템 운용 중. 별도의 Test Case가 없는 Prompt의 경우 신뢰도 부족으로 인해 모든 요청을 Frontier Model로 Escalation 하여 비용 최적화가 불가능한 구조적 한계 존재.

Technical Solution

  • Test Case 부재 문제를 해결하기 위해 두 개의 독립적인 Cheap Model 간 응답 일치 여부를 판단하는 Agreement Gate 설계
  • 두 모델의 응답이 일치할 경우 정답 가능성이 매우 높다고 판단하여 Cheap Tier에서 즉시 서빙
  • 응답 불일치 시에만 Frontier Model로 Escalation 하여 정답률 유지와 비용 절감을 동시에 달성하는 보수적 설계 채택
  • 아키텍처가 서로 다른 Cheap Model 쌍을 구성하여 공통적인 학습 데이터 편향에 따른 오답 합의 리스크 최소화
  • Adversarial Trap을 포함한 4가지 Task Family 스트레스 테스트를 통해 P(wrong given agree) 0.00 달성 검증
  • 최종 정답 기반의 검증 방식으로 설계하여 Multi-step Reasoning의 중간 과정 오류 가능성은 배제한 범위 내 최적화

1. 모델 분기 기준이 모호한 경우, 서로 다른 아키텍처의 경량 모델 2개를 배치하여 Agreement Gate 구축 검토

2. P(wrong given agree) 지표를 정의하고 Adversarial Test Set을 통해 오답 합의 확률 정밀 측정

3. 고비용 모델의 호출 빈도가 높은 Long Context 구간부터 우선적으로 적용하여 Cost Lever 극대화

4. Multi-step Reasoning 등 중간 과정 검증이 필요한 Task는 별도의 검증 로직 설계 필요

원문 읽기