피드로 돌아가기
Show GN: oh-my-free-models - 무료 LLM 중 지금 가장 빠른 모델로 코딩 에이전트를 라우팅하는 로컬 프록시
GeekNewsGeekNews
AI/ML

Show GN: oh-my-free-models - 무료 LLM 중 지금 가장 빠른 모델로 코딩 에이전트를 라우팅하는 로컬 프록시

실시간 Latency 기반 라우팅을 통한 Free LLM 가용성 극대화 로컬 프록시 설계

happyhaki2026년 5월 6일2intermediate

Context

Free Tier LLM의 불안정한 Rate Limit 및 변동성이 큰 Latency로 인한 코딩 에이전트의 실행 중단 발생. 모델 제공자별 Quota 소진 시 수동으로 API Key와 baseURL을 변경해야 하는 운영 오버헤드 상존.

Technical Solution

  • OpenAI 및 Anthropic 호환 API 엔드포인트를 제공하는 로컬 프록시 계층 설계
  • 모델 Pool 내 실시간 Latency 측정으로 최적의 Live Model을 선택하는 동적 라우팅 로직 구현
  • 429(Rate Limit) 및 402(Quota Exceeded) 응답 수신 시 해당 모델을 10분간 제외하는 Cooldown 메커니즘 적용
  • 용도별 모델 그룹(fast, balanced, capable) 분리를 통한 워크로드 최적화 구조 채택
  • 에이전트 설정 변경 없이 baseURL 변경만으로 다중 Provider 가용성을 확보하는 추상화 레이어 구축

1. 외부 API 의존성이 높은 시스템 설계 시 장애 전파 방지를 위한 Circuit Breaker 및 Cooldown 로직 검토

2. 정적 설정 대신 실시간 메트릭 기반의 동적 라우팅 도입을 통한 가용성 향상 방안 모색

3. 다양한 API 스펙을 단일 엔드포인트로 통합하는 어댑터 패턴 적용 여부 확인

원문 읽기