피드로 돌아가기
Hacker NewsHacker News
AI/ML

RouterArena 1위, Embedder 기반 지능형 모델 라우팅 프록시 구현

Show HN: Smart model routing directly in Claude, Codex and Cursor

2026년 6월 26일4advanced

Context

다양한 LLM Provider의 API 규격 파편화로 인한 통합 관리의 어려움 존재. 단순 프롬프트 기반의 모델 선택 방식이 가지는 불확실성과 비효율성을 해결하기 위한 고정밀 라우팅 계층 필요.

Technical Solution

  • Avengers-Pro 2 기반 Cluster Scorer를 통한 요청별 최적 모델 자동 선정 구조 설계
  • Vibes-based Prompt 대신 On-box Embedder를 활용한 결정론적 라우팅 로직 구현
  • Anthropic, OpenAI, Gemini 등 서로 다른 API 규격을 단일 Endpoint로 통합하는 Drop-in Proxy 아키텍처 채택
  • Redis Sliding Window 알고리즘을 적용한 Token-aware Rate Limiting으로 인프라 안정성 확보
  • Tail Latency 최소화를 위한 Speculative Dispatch 및 Hedging 전략 도입
  • OTLP 기반 Trace 전송을 통한 분산 추적 및 Observability 체계 구축

1. 다중 모델 사용 시 API 규격 통합을 위한 Proxy 계층 도입 검토

2. 모델 선택 로직에 LLM 호출 대신 경량 Embedder를 사용하여 지연 시간 단축

3. LLM API 호출의 꼬리 지연 시간(Tail Latency) 해결을 위한 Hedging 전략 적용 여부 확인

4. API 키 보안을 위한 BYOK(Bring Your Own Key) 및 At-rest Encryption 적용

원문 읽기