컨테이너 Health Check의 맹점, Heartbeat 패턴으로 해결

Your AI Agent Stopped Responding 2 Hours Ago. Nobody Noticed.

George Belsky2026년 4월 5일6분intermediate

AI 요약

Context

Kubernetes Liveness Probe는 프로세스의 생존 여부만 확인하는 수동적 구조. AI Agent가 Deadlock이나 무한 루프에 빠져도 HTTP 응답만 가능하면 정상 상태로 오인. 실제 작업 처리 여부를 감지하지 못하는 모니터링 공백 발생.

프로세스 생존 확인이 아닌 작업 수행 능력을 검증하는 능동적 Heartbeat 패턴 도입
30초 간격으로 Agent가 플랫폼에 상태를 보고하는 Daemon Thread 기반 전송 구조
보고 간격(30s) 대비 누락 횟수에 따른 상태 세분화(Healthy < 90s, Degraded 90-300s, Unreachable > 300s)
단순 장애와 의도적 중단을 구분하기 위해 관리자가 제어하는 Kill/Resume 상태 분리 설계
개별 Agent의 상태를 실시간으로 시각화하는 Mesh Dashboard를 통한 Fleet Visibility 확보
상태 전이 발생 시 즉시 인텐트 전달을 차단하여 잘못된 요청 유입을 방지하는 회로 차단 메커니즘

상태를 가지지 않는 Stateless 서버와 달리 상태를 유지하며 비동기로 동작하는 Agent는 수동적 헬스체크가 아닌 능동적 상태 보고 체계가 필수적임.

실천 포인트

AI Agent 배포 시 Liveness Probe에 의존하지 말고, 작업 처리 루프와 연동된 Heartbeat 메커니즘을 반드시 구축할 것

태그