피드로 돌아가기
InfoQDevOps
원문 읽기
Automation 및 AI 도입에 따른 시스템 안전성과 Human Factors의 트레이드오프 분석
Presentation: The Ironies of A^2 I^2
AI 요약
Context
시스템 자동화와 AI 도입이 증가함에 따라 운영자의 수동 제어 능력 저하 및 시스템 이해도 결여라는 역설적 상황 발생. 단순한 기능 자동화가 장애 상황에서 대응 능력을 약화시키는 기술적 부채로 작용하는 한계점 분석.
Technical Solution
- Manual Skills Deterioration 방지를 위한 지속적인 수동 조작 환경 및 스킬셋 유지 전략 수립
- 시스템 내부 동작 원리에 대한 Deep Knowledge 확보를 통한 신규 장애 대응 전략(New Strategies) 생성 능력 유지
- Speed와 Correctness 사이의 Trade-off를 인정하고 통계적 허용 범위(Acceptable Performance) 기반의 검증 체계 설계
- AI Summary의 빈도 기반 요약 방식이 아닌, 맥락적 통찰(Insight)을 추출하는 Human-centric Incident Review 프로세스 구축
- Runbook 의존도를 낮추고 엔지니어의 전문성(Expertise)을 발휘할 수 있는 가이드라인 설계
- 단순 요약을 넘어 기술 투자 및 철회 결정을 위한 아키텍처적 분석 데이터 확보
실천 포인트
- 장애 대응 시 Runbook의 맹목적 수행보다 시스템 원리 기반의 추론을 장려하는 문화 구축 - AI 요약본에 의존하지 않고 Incident의 인과관계와 맥락을 분석하는 Post-mortem 세션 운영 - 자동화 도구 도입 시, 해당 도구가 고장 났을 때 수동으로 복구할 수 있는 Fallback 절차와 훈련 계획 수립 - 성능 지표 설정 시 절대적 정답이 아닌 통계적 허용 범위 내의 Acceptability 기준 정의