피드로 돌아가기
Changes to GitHub Copilot Individual plans
GitHub BlogGitHub Blog
AI/ML

Agentic Workflow로 인한 리소스 폭증 대응 및 Token 기반 Guardrail 설계

Changes to GitHub Copilot Individual plans

Joe Binder2026년 4월 20일4intermediate

Context

Agentic Workflow 도입에 따른 Parallelized Session의 급증으로 기존 Plan 구조의 Compute 자원 한계를 초과한 상황. 소수 요청이 Plan 가격을 상회하는 고비용 구조로 인한 인프라 부하 및 서비스 품질 저하 발생.

Technical Solution

  • Token Consumption과 Model Multiplier를 조합한 다중 계층 Usage Limit 체계 도입
  • Peak Usage 시점의 시스템 과부하 방지를 위한 Session-based Limit 적용
  • Long-trajectory 요청의 비용 통제를 위한 Weekly Token Cap 설정 및 관리
  • 고비용 모델인 Opus의 Pro Plan 제외 및 Pro+ Plan으로의 접근 권한 격리
  • VS Code 및 Copilot CLI 내 실시간 Usage Monitoring 인터페이스 구현을 통한 사용자 제어권 강화
  • Parallel Workflow 생성 도구인 /fleet 사용 제한 권고를 통한 토큰 소모율 최적화

1. LLM 서비스 설계 시 모델별 추론 비용에 따른 가중치 기반의 Rate Limit 적용 검토

2. 세션 단위의 단기 Limit과 주간 단위의 장기 Limit을 분리하여 피크 타임 대응 및 총 비용 통제

3. 사용자에게 리소스 소모량을 실시간 시각화하여 스스로 사용 패턴을 최적화하도록 유도하는 Feedback Loop 구축

원문 읽기