피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM Routing 도입을 통한 비용 83% 절감 및 P95 Latency 420ms 달성
Multi-Model LLM Routing: Why 76% of Your Inference Shouldn't Touch GPT-4
AI 요약
Context
모든 요청에 Frontier 모델을 기본 적용함에 따른 고비용 구조와 높은 Latency 문제 발생. 단순 응답 작업에서도 고성능 모델이 불필요한 추론을 수행하여 사용자 이탈을 초래하는 병목 지점 확인.
Technical Solution
- DistilBERT 기반 Classifier를 통한 요청 복잡도 측정 및 3단계 모델 티어(Fast, Balanced, Frontier) 분기 처리
- Entity count, Dependency parse tree depth 등 Feature Engineering을 통한 분류 정밀도 향상
- 모델별 차등 Timeout 설정 및 응답 품질 검증 실패 시 상위 티어로 전이하는 Up-routing Fallback 체인 설계
- 실제 트래픽 기반의 일일 레이블링을 통한 Active Learning으로 분류 모델의 정확도 지속 업데이트
- 태스크 요구사항에 최적화된 모델 매칭을 통해 단순 작업 시 Frontier 모델의 과잉 추론(Overthinking) 제거
실천 포인트
- 요청 길이나 키워드 기반의 Naive Routing부터 시작하여 점진적으로 ML Classifier 도입 - 실제 사용자 데이터를 활용한 레이블링 파이프라인 구축으로 합성 데이터의 편향성 제거 - 단순 응답 품질 검증 로직을 구현하여 저사양 모델의 실패를 상위 모델이 보완하는 Fallback 구조 설계 - 과도한 비용 최적화보다는 사용자 경험을 해치지 않는 적정 Routing 비율(약 76%) 유지