피드로 돌아가기
The RegisterInfrastructure
원문 읽기
월 14억 건 Commit 처리를 위한 30배 용량 확장 및 Azure 마이그레이션
Holy git! Microsoft code-sharing site suffers downtime, despite move to Azure
AI 요약
Context
AI 기반 코딩 및 Agentic Workflow 도입으로 인한 트래픽 폭증과 이로 인한 시스템 가용성 저하 발생. 기존 Monolith 구조의 한계와 급격한 워크로드 증가로 인한 인프라 병목 지점 노출.
Technical Solution
- 예측치 10배를 상회하는 30배 수준의 Capacity 확장 설계를 통한 트래픽 수용량 확보
- Monolith 트래픽의 Azure 마이그레이션 비중을 8%에서 40%로 확대하여 인프라 부하 분산
- Git 트래픽 30% 및 Repository Replication 99%를 Azure로 이전하여 데이터 처리 효율 최적화
- User, Authentication, Authorization 기능을 개별 Domain으로 분리하는 서비스 격리 전략 채택
- Primary Database Cluster의 고립화를 통한 Cascading Failure 방지 구조 설계
- Copilot 구독 일시 중단을 통한 AI 서비스 비용 통제 및 모델 공급자 정책 기반 Pricing 조정
실천 포인트
1. 트래픽 예측 모델에 AI 에이전트와 같은 비인간 사용자의 요청 패턴을 반영했는가
2. 특정 모듈의 장애가 전체 시스템으로 전파되는 Cascading Failure 경로를 차단했는가
3. 인증/인가와 같은 공통 서비스가 메인 데이터베이스의 병목을 유발하지 않도록 도메인 분리가 되었는가
4. 인프라 마이그레이션 시 클라우드 제공사 자체의 Capacity 제약 사항을 검토했는가
태그