피드로 돌아가기
GitHub BlogGitHub Blog
AI/ML

Agentic AI 비용 최적화를 위한 Token 기반 Usage-based Billing 전환

GitHub Copilot is moving to usage-based billing

Mario Rodriguez2026년 4월 27일4intermediate

Context

단순 에디터 보조에서 Multi-step 코딩 세션을 수행하는 Agentic Platform으로 진화함에 따른 Compute 및 Inference 비용 급증 발생. 기존의 Premium Request Unit(PRU) 기반 과금 체계로는 고부하 사용자(Heavy User)의 리소스 소비 비용을 회수하지 못하는 구조적 한계 직면.

Technical Solution

  • PRU 단위를 폐지하고 Input, Output, Cached Token 소비량을 기반으로 하는 GitHub AI Credits 체계 도입
  • Model별 API Rate를 적용하여 실제 추론 비용과 과금 모델을 일치시킨 비용 구조 설계
  • 기업 고객 대상 Pooled Included Usage 아키텍처를 통해 조직 내 유휴 크레딧을 공유하고 Resource Stranded Capacity 문제 해결
  • Enterprise, Cost Center, User 레벨의 세분화된 Budget Control 메커니즘을 구현하여 비용 상한선 제어
  • Code completion 및 Next Edit suggestion은 기본 제공 항목으로 분리하여 핵심 UX의 지연 없는 경험 유지
  • Copilot Code Review 프로세스에 GitHub Actions minutes 과금 체계를 결합한 하이브리드 과금 모델 적용

- LLM 서비스 설계 시 Request 단위가 아닌 Token 단위의 과금 모델을 적용하여 추론 비용 리스크 관리 - B2B SaaS 설계 시 개별 사용자 할당 방식 대신 Pooled Resource 구조를 채택하여 자원 효율성 극대화 - Agentic Workflow 도입 전 고비용 추론 세션에 대한 Budget Cap 및 Monitoring 시스템 구축 여부 검토

원문 읽기