피드로 돌아가기
Dev.toAI/ML
원문 읽기
Semantic Routing 기반 Tiered Intelligence로 추론 비용 76% 절감
The Accountant: Optimizing AI Costs with Semantic Routing
AI 요약
Context
모든 요청에 고성능 LLM(Claude 3.5, GPT-4o)을 적용함에 따른 Cognitive Budget 낭비 발생. 단순 조회 작업과 고차원 분석 작업의 혼재로 인한 비효율적인 인프라 비용 지출 구조 분석.
Technical Solution
- Gatekeeper Pattern을 적용한 Semantic Router(The Accountant) 설계
- 쿼리 복잡도에 따라 Operational(Level 1)과 Forensic(Level 2)으로 분류하는 Classification 로직 구현
- Level 1 작업의 경우 Local SLM(Phi-4, Llama 3.2)으로 라우팅하여 Marginal Cost 제거
- Level 2 작업 및 분류 실패 시 Cloud LLM으로 Escalation 하여 정확도 유지
- prompts.yaml 기반의 설정 제어를 통한 라우팅 기준의 유연한 관리
- The Judge Agent를 활용한 SLM과 Cloud LLM 간의 Reliability Score 벤치마킹 체계 구축
실천 포인트
- 워크로드 분석을 통해 단순 Retrieval과 Complex Reasoning 태스크의 비율 산정 - 분류 실패 시 High-reasoning 모델로 Fallback 하는 안정적 라우팅 로직 검토 - Local SLM 도입 시 성능 저하 여부를 판단할 정량적 Rubric(The Judge) 정의 - 추론 비용의 수직적 상승을 막기 위한 Semantic Routing 레이어 추가 고려