피드로 돌아가기
Virtual keys per tenant: ditching our custom LLM billing layer
Dev.toDev.to
Infrastructure

Bifrost Virtual Keys 도입으로 LLM 미들웨어 LOC 63% 감소 및 p95 지연시간 39ms 단축

Virtual keys per tenant: ditching our custom LLM billing layer

Marcus Chen2026년 5월 27일4intermediate

Context

Python 기반의 커스텀 미들웨어가 비용 추적, Rate Limit, Failover 로직을 모두 처리하며 11,247 LOC의 기술 부채로 작용함. 특히 동기식 Redis 호출과 하드코딩된 가격 정책으로 인해 모델 추가 시마다 배포가 필요한 구조적 경직성이 발생함.

Technical Solution

  • Virtual Keys 모델 도입을 통한 Tenant별 예산, Rate Limit, 허용 모델 및 Provider 설정의 중앙 집중화
  • Orchestrator의 역할을 Tenant 기반 Virtual Key 선택 및 요청 전송이라는 단순 인터페이스로 축소
  • Go 기반의 Bifrost 게이트웨이 배치를 통한 Python 미들웨어의 동기식 처리 병목 지점 제거
  • Provider Failover 전략을 설정 파일 기반의 계층 구조로 추상화하여 런타임 유연성 확보
  • Semantic Caching을 Content Generation 경로에만 제한적으로 적용하여 Tool-use 에이전트의 응답 정확성 보존

- 3개 이상의 LLM Provider와 다중 Tenant 계층을 운영 중인지 확인 - CostTrackingMiddleware와 같은 커스텀 로직이 반복적으로 구현되었는지 검토 - Semantic Caching 도입 시 프롬프트의 유사도가 응답의 정확성에 미치는 영향 분석 - Hosted 솔루션의 편의성과 Self-hosted의 제어권 사이의 Trade-off 평가

원문 읽기