피드로 돌아가기
Dev.toAI/ML
원문 읽기
HTTP 200 뒤에 숨은 LLM 장애 감지를 위한 5계층 Observability 설계
The Senior AI Engineer Interview Question Nobody's Asking Yet (But Should Be)
AI 요약
Context
전통적인 APM은 Latency와 Error Rate 중심의 모니터링을 수행하나, LLM 시스템의 Hallucination 및 Retrieval Drift는 HTTP 200 상태 코드를 반환하여 감지가 불가능함. 79%의 기업이 Agent 실패를 체계적으로 추적하지 못하는 구조적 한계 존재.
Technical Solution
- Canary Evals 도입을 통한 Model ID별 품질 상시 검증 및 Vendor 간 Cross-Judge 체계 구축으로 Self-preference Bias 제거
- 실시간 트래픽의 일부(1~5%)를 샘플링하여 Customer Tier 및 Entity Type별 Slice 기반 Online Judge 운영으로 국소적 품질 저하 포착
- RAG 파이프라인 내 Context-relevance Eval을 7일 Rolling Window로 추적하여 Embedding 모델 교체 및 Chunking 변경에 따른 Drift 감지
- 요청 단위 비용 제한이 아닌 Tenant별 시간당 비용 Baseline 기반 Alerting 체계를 구축하여 Tool-call Loop로 인한 비용 폭증 방지
- Fallback-tier 모델에 대해 Steady State에서도 합성 데이터를 통한 정기 Eval을 수행하여 실제 장애 전환 시의 가용성 보장
- 모든 Span에 app.feature.owner 속성을 부여하여 장애 발생 시 즉각적인 책임 팀 식별 및 대응 구조 설계
실천 포인트
- 단순 Error Rate가 아닌 LLM 전용 품질 지표(Faithfulness, Relevance)를 Span Attribute로 적재하고 있는가? - 전체 평균 지표에 가려진 특정 세그먼트(Slice)의 품질 저하를 감지할 수 있는 모니터링 대시보드가 있는가? - Model Provider의 무중단 업데이트나 내부 설정 변경을 감지할 수 있는 Canary 테스트 세트가 자동화되어 있는가? - Fallback 모델의 성능이 Primary 모델의 기준치 대비 어느 정도 수준인지 정량적으로 파악하고 있는가?