피드로 돌아가기
Dev.toAI/ML
원문 읽기
Dynamic Routing 도입을 통한 LLM 추론 비용 78% 절감 및 P99 Latency 42% 개선
How I Cut LLM Inference Costs by 78% Without Sacrificing Quality
AI 요약
Context
모든 요청에 Llama-3.1-70B 모델을 일괄 적용함에 따른 과도한 비용 지출 및 자원 낭비 발생. 단순 의도 분류 및 RAG 조회 등 낮은 복잡도의 요청이 전체 트래픽의 64%를 차지하며 P99 Latency 및 Throughput 병목의 원인으로 작용.
Technical Solution
- Qwen2.5-1.5B-Instruct 기반의 전용 Router 모델을 배치하여 요청별 Semantic Complexity를 0-10 척도로 측정
- all-MiniLM-L6-v2 임베딩 기반의 Cosine Similarity 측정 방식을 통한 5ms 미만의 초고속 복잡도 스코어링 구현
- 복잡도 점수 4.0 기준의 Threshold 설계를 통해 Llama-8B와 Llama-70B 모델로 트래픽을 분기하는 Tiered Compute 구조 채택
- 8B 모델의 응답에 Confidence Score를 부여하는 Self-Assessment Layer를 추가하여 신뢰도 0.7 미만 요청을 70B 모델로 Escalation 처리
- 프롬프트 길이 기반 라우팅의 한계를 극복하기 위해 의미론적 난이도 중심의 Dynamic Routing Topology 설계
Impact
- 월간 추론 비용: $14,200 $\rightarrow$ $3,100 (-78%)
- P99 Latency: 1,400ms $\rightarrow$ 810ms (-42%)
- Max Throughput: 120 req/s $\rightarrow$ 450 req/s (+275%)
- 트래픽 분산: 8B 모델 85%, 70B 모델 15% 배분 및 품질 저하 0.3% 수준으로 유지
Key Takeaway
LLM 스택을 단일 모델이 아닌 계층형 컴퓨팅 자원으로 취급하여, 요청의 복잡도에 최적화된 모델을 동적으로 할당함으로써 비용 효율성과 처리 성능을 동시에 확보하는 설계 원칙
실천 포인트
1. 단순 길이 기반 라우팅 대신 Embedding 기반의 Semantic Complexity 스코어링 도입 검토
2. 소형 모델의 Confidence Score를 활용한 상위 모델 Escalation 로직 설계
3. 70B 모델 유입률 30% 초과 시 Router Threshold 값의 재조정 수행
4. Router 결과 캐싱을 통한 중복 요청의 오버헤드 제거