피드로 돌아가기
The RegisterInfrastructure
원문 읽기
Agentic Workflow로 인한 Compute Crunch 해결을 위한 Billing 구조 전환
Microsoft's GitHub grounds Copilot account sign-ups amid capacity crunch
AI 요약
Context
Agentic Workflow 도입에 따른 Long-running 및 Parallelized Session 증가로 기존 Compute 자원 한계 도달. Flat-rate 기반 과금 체계가 실제 Token 소비량과 괴리되어 운영 비용이 급증하는 구조적 병목 발생.
Technical Solution
- 서비스 안정성 확보를 위해 Copilot Pro, Pro+, Student 플랜의 신규 가입 일시 중단
- Peak-time 가용성 보장을 위한 Session Limit 및 Token 기반의 Weekly Limit 적용
- Long-trajectory Request로 인한 비용 폭증 방지를 위해 모델별 Multiplier 기반의 Throttling 로직 강화
- Flat-rate 과금 방식에서 Token-based Billing 체계로의 전환을 통한 비용 효율화 추진
- 고비용 저효율 모델인 Opus 4.5, 4.6을 제거하고 처리 효율이 개선된 Opus 4.7로 모델 라인업 재편
- 모델 성능 및 비용 최적화를 위해 Premium Request Multiplier(7.5x)를 적용한 차등 과금 설계
실천 포인트
1. LLM 기반 서비스 설계 시 단순 요청 횟수가 아닌 Token 소비량 기반의 Rate Limit 설정 여부 검토
2. Agentic Workflow의 Recursive Loop 발생 가능성을 고려한 Max-token 및 Timeout 제어 로직 구현
3. 모델 성능 향상분과 인프라 비용 상승분(Cost per Token)의 상관관계를 분석하여 모델 티어링 전략 수립