피드로 돌아가기
Dev.toDevOps
원문 읽기
ADR 기반 Intent 분석으로 Incident 대응 시간을 60일의 부채에서 2분으로 단축
Part 1: Intent vs State — How AWS DevOps Agent Closes the Gap Between What Your System Is and What You Decided It Should Be
AI 요약
Context
기존 AIOps 도구들이 Telemetry 기반의 State 분석에는 능숙하나, ADR 및 Runbook 같은 설계 의도(Intent)를 파악하지 못하는 한계 존재. 이로 인해 과거에 결정된 Risk Acceptance나 기술 부채가 Incident의 원인이 되었을 때 이를 식별하는 데 과도한 시간이 소요되는 문제 발생.
Technical Solution
- Bedrock AgentCore와 Claude 모델을 결합하여 Telemetry와 조직 내 Knowledge Base를 동시에 분석하는 AWS DevOps Agent 구조 설계
- CloudWatch, PagerDuty 등 외부 Trigger를 통해 Bedrock Knowledge Bases에 저장된 ADR 및 문서 데이터를 실시간으로 검색하는 파이프라인 구축
- ADR-004 사례와 같이 YAML Frontmatter 기반의 메타데이터(만료일, 서비스명, 리스크 범위)를 활용하여 현재 상황에 유효한 결정 사항만 필터링
- Retrieval Client 단에서 YAML Frontmatter를 직접 파싱하여 Prompt 부하를 줄이고 검색 정확도를 높인 설계 채택
- State(로그, 메트릭)와 Intent(ADR, 결정서)를 교차 검증하여 단순 이상 징후 탐지를 넘어 구체적인 해결책(Break-glass plan)을 제시하는 추론 체계 구현
실천 포인트
- ADR 작성 시 YAML Frontmatter를 활용해 만료일, 영향 범위, 서비스명을 정형 데이터로 포함할 것 - LLM의 Context Window 낭비를 막기 위해 문서 파싱 로직을 Prompt 단계가 아닌 Retrieval 단계에서 처리할 것 - Incident 대응 워크플로우에 Telemetry 데이터와 설계 문서(ADR)를 결합하는 Cross-referencing 단계 도입 검토