피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Claude code 개발자 Boris Cherny, 소스코드 유출 경위 공개
수동 배포 단계 자동화 미흡으로 Claude 서비스 12시간 장애 발생함
AI 요약
Context
3월 31일 17:45 UTC부터 4월 1일 05:52 UTC까지 Claude Opus 4.6과 Sonnet 4.6에서 타임아웃이 급증하는 장애가 발생함. Downdetector 기준 오전 8시 30분(PT)에 2,400명 이상의 사용자가 문제를 보고함.
Technical Solution
- Claude Code 창시자 Boris Cherny가 직접 장애 원인을 공개함
- 자동화되지 않은 수동 배포 단계가 원인으로 파악됨
- 팀이 자동화 개선을 즉시 적용함 (일부 완료, 일부 진행 중)
- 블레미리스 포스트모럼(blameless postmortem) 문화에 따라 개인 지목 없이 프로세스 개선에 집중함
Impact
약 12시간 서비스 중단. 2,400명 이상 사용자 영향.
Key Takeaway
성장 중인 AI 서비스에서 수동 배포 단계 하나가 대규모 장애로 이어질 수 있음. “개인을 처벌하면 문제가 숨어버린다”라는 SRE 원칙에 따라 시스템을 고치는 것이 올바른 대응임.
실천 포인트
AI 서비스 운영 환경에서 배포 파이프라인의 수동 단계를 반드시 자동화해야 함. 주기적으로 배포 프로세스를 검토하여 자동화되지 않은 지점을 제거해야 대규모 장애를 예방할 수 있음.