피드로 돌아가기
뱅크샐러드 기술블로그DevOps
원문 읽기
2025 re:Invent 여정
AWS re:Invent 2025에서 제시된 Agentic AI 기반 EKS 운영 아키텍처로 Slack 알림 자동 감지, 실시간 클러스터 상태 조회, 과거 해결책 재사용을 통한 자율적 트러블슈팅 구현
AI 요약
Context
기존 RAG 방식은 미리 청킹한 데이터를 검색하는 구조로 실시간 운영 이슈 대응에 한계가 있었습니다. EKS 클러스터의 동적 상태 변화에 즉각 대응할 수 없었고, 조직 내 흩어진 Tribal Knowledge를 효율적으로 재사용하지 못했습니다.
Technical Solution
- MCP(Model Context Protocol)를 통해 지금 이 순간의 EKS 클러스터 상태를 직접 조회하는 방식으로 변경: Managed EKS MCP server를 IAM 기반으로 연결
- Slack 메시지 수신 후 자동 트러블슈팅 루프 실행: Strands Agents SDK의 Orchestrator와 Specialist 구조로 구현
- 의도 분류를 위해 Nova Micro 모델을 먼저 사용: 모든 메시지를 무겁게 처리하지 않고 필요한 경우에만 에이전트 동작
- 조직 내 과거 해결 경험을 S3 Vectors에 저장: Memory Agent를 분리하여 다른 에이전트들과 A2A 방식으로 협력
- 역할이 명확한 아키텍처 설계: 실시간 데이터 접근, 지식 축적, 비용 통제를 통합
Key Takeaway
EKS 기반 운영 팀은 더 똑똑한 모델보다 실시간 데이터 접근 능력, 조직 지식의 체계적 축적, 단계별 비용 통제 메커니즘, 그리고 에이전트 역할의 명확한 분리가 AI 운영 도입의 핵심임을 인식해야 합니다.
실천 포인트
EKS를 운영하는 팀에서 MCP를 통해 실시간 클러스터 상태를 에이전트가 직접 조회하고, Slack 기반 자동 트러블슈팅 루프를 구성하며, S3 Vectors에 과거 해결책을 축적하면 팀원과 유사한 수준의 자율적 운영 에이전트를 구현할 수 있습니다.