피드로 돌아가기
Dev.toAI/ML
원문 읽기
ADWIN 기반 Drift Detection으로 LLM Router의 정적 추론 한계 해결
Drift Detection for LLM Routing: Catching Silent Model Degradation
AI 요약
Context
Multi-armed Bandit 기반 LLM Routing 아키텍처에서 모델 업데이트나 API 성능 저하로 발생하는 Silent Model Degradation 문제 발생. 과거 성공률에 의존하는 높은 관성으로 인해 실제 성능 하락 시에도 잘못된 경로로 태스크를 계속 할당하는 지연 대응 구조의 한계 확인.
Technical Solution
- Learning Rate 상향 시 발생하는 Noise 민감도 증가 문제를 해결하기 위해 특정 Arm에만 적용되는 Surgical Forgetting 메커니즘 도입
- Bifet & Gavaldà(2007)의 ADWIN(Adaptive Windowing) 알고리즘을 각 Reward Stream에 독립적으로 배치한 Tripwire 구조 설계
- 윈도우 내 데이터 분포의 통계적 유의미한 차이를 감지하여 Drift 발생 시에만 과거 데이터를 즉시 폐기하는 가변 윈도우 전략 적용
- 분산 기반의 Tolerance Band를 통해 안정적인 Arm의 오탐을 방지하고 성능 급락 시 빠르게 반응하는 동적 임계값 제어
- Drift 감지 신호를 기반으로 해당 Arm의 추정치를 Post-collapse Window 데이터로만 즉시 리셋하는 피드백 루프 구축
실천 포인트
- LLM 라우팅 설계 시 고정된 Learning Rate 대신 데이터 분포 변화를 감지하는 Drift Detector 도입 검토 - 모델 업데이트가 빈번한 환경에서는 Convergence보다 Adaptive Forget 메커니즘을 우선 설계 - River 라이브러리의 ADWIN과 같은 Online Machine Learning 도구를 활용하여 개별 리소스별 모니터링 파이프라인 구축