피드로 돌아가기
Stop hand-picking an LLM per request: a practical case for auto-routing
Dev.toDev.to
AI/ML

Hardcoded LLM 탈피, Auto-Routing을 통한 비용 최적화 및 품질 유지

Stop hand-picking an LLM per request: a practical case for auto-routing

chenxiao5580-cmd2026년 6월 16일3intermediate

Context

단일 모델 Hardcoding으로 인한 비용 효율성 저하 및 요청 난이도별 품질 불일치 발생. 단순 요청에 과도한 비용을 지불하거나, 복잡한 요청에 낮은 성능의 모델을 할당하는 아키텍처적 한계 직면.

Technical Solution

  • 요청 난이도 기반 Classifier 도입을 통한 Dynamic Model Routing 구조 설계
  • Token 길이, Task 키워드, 구조적 특성을 활용한 가벼운 난이도 측정 로직 구현
  • 품질 하한선(Quality Floor) 설정을 통한 최소 응답 품질 보장 체계 구축
  • 불확실성 발생 시 상위 모델로 할당하는 Round-up 전략을 통한 오답률 최소화
  • 모델 선택 사유 및 결과의 Observability 확보를 위한 로깅 시스템 통합
  • 요청-모델 간의 정합성 검증을 위한 주기적 Routing Eval 프로세스 수립

1. 요청별 Token 길이와 Task 유형(추출/분류 vs 추론/디버깅)을 구분하는 Classifier 도입 검토

2. 사용자 정의 품질 티어(Quality Tier) 내에서만 라우팅이 작동하도록 가드레일 설정

3. '짧지만 난이도가 높은 프롬프트'에 대비하여 불확실성 시 상위 모델 할당 로직 적용

4. 모델별 서빙 로그를 기록하여 라우팅 결정의 적절성을 정량적으로 분석

원문 읽기