피드로 돌아가기
AWS DevOps Agent: From Setup to First Real Investigation (And the Gotchas in Between)
Dev.toDev.to
DevOps

장애 초기 15분 context 수집 자동화로 MTTR 단축

AWS DevOps Agent: From Setup to First Real Investigation (And the Gotchas in Between)

ajithmanmu2026년 5월 4일9intermediate

Context

장애 발생 시 CloudWatch, New Relic, GitHub 등 분산된 도구에서 컨텍스트를 수집하는 수동 과정으로 인한 초기 대응 지연 발생. 도구 간 파편화된 데이터로 인해 실제 복구 작업 시작 전까지의 리소스 낭비가 심한 구조적 한계 존재.

Technical Solution

  • Agentic AI 기반의 DevOps Agent를 활용하여 Telemetry 데이터 수집 및 분석 과정을 Pipeline화한 구조 설계
  • Cross-region Discovery 기능을 통해 인프라 이전 없이 타 리전 자원(ECS, ALB, Lambda 등)의 4,000개 엔티티 관계 자동 매핑
  • New Relic Capability Webhook과 Telemetry Source를 이중 구성하여 Alert 발생 즉시 Investigation 자동 트리거 및 데이터 추출 로직 구현
  • New Relic의 Payload 형식을 Agent 요구 규격(Case-insensitive Action, String-type Service)에 맞게 Conditional Template으로 정규화
  • GitHub App Integration을 통해 Deployment Event와 Incident Timeline을 상관 분석하여 코드 변경 기반의 원인 추론 가능 구조 확보
  • Topology Mapping으로 이미 인지한 인프라 정보 외에 Runbook, Status Page 등 외부 컨텍스트 전용 Custom Skill 주입

1. Full Platform User API key 확보 여부 사전 확인

2. Webhook Payload의 데이터 타입 및 대소문자 일치 여부 검증

3. 모든 Alert가 아닌 P1/P2 Priority 중심의 좁은 Scope 설정으로 비용 및 노이즈 제어

4. 인프라 자동 발견 정보와 수동 주입 정보(Custom Skill)의 역할 분리

원문 읽기