피드로 돌아가기
Dev.toAI/ML
원문 읽기
FastAPI와 AgentGateway를 활용한 비용 최적화 LLM 라우팅 시스템 구축
I Built an AI That Decides Which AI to Talk To — Running 24/7 From My Living Room
AI 요약
Context
단일 LLM 엔드포인트 사용으로 인한 단순 코딩 작업의 불필요한 Cloud API 비용 발생 및 Latency 증가 문제 직면. 작업의 복잡도에 따라 Local LLM과 Frontier Model을 적절히 배분하는 Intelligent Routing 구조의 필요성 대두.
Technical Solution
- FastAPI 기반의 Lightweight Router를 최상단에 배치하여 Request Body 내 키워드 및 프롬프트 길이를 분석하는 Intent Classification 수행
- 분석된 Intent를 HTTP Header(
x-intent)에 삽입하여 하단 AgentGateway로 전달하는 비침습적 라우팅 설계 - AgentGateway의 Model Aliasing 기능을 통해 클라이언트 변경 없이
inteli-llm이라는 단일 식별자를 백엔드의 qwen2.5-coder, gpt-4o, gemini-2.5-flash로 동적 매핑 - API Key 관리 주체를 클라이언트에서 Gateway 레벨로 이전하여 보안성 강화 및 인증 로직 단일화
- Ollama 장애 시 Cloud Model로 즉시 전환되는 Failover 체계를 구축하여 시스템 가용성 확보
- Protocol Translation 기능을 활용해 다양한 LLM Provider의 API 규격을 OpenAI 표준 포맷으로 통합
실천 포인트
- 작업 복잡도에 따른 모델 계층화(Local $\rightarrow$ Cloud)로 API 비용 및 Latency 최적화 검토 - 클라이언트와 모델 간 결합도를 낮추기 위해 Model Alias 기반의 추상화 레이어 도입 - 복잡한 ML 기반 분류기 대신 키워드 매칭 및 Heuristics를 통한 빠른 의사결정 구조 우선 적용 - API Key와 인증 로직을 Gateway 단으로 중앙집중화하여 보안 리스크 감소