AI 에이전트 모니터링의 F1 0.88 허구를 걷어낸 Structural Detection 도입

The standard way to score AI agent monitors is gameable a coin flip scores F1 0.88

Alkur Jaswanth2026년 6월 28일5분advanced

AI 요약

Context

단일 패스 필터 기반의 기존 모니터링 방식은 절차적 순서를 고려하지 못해 실행 도중 발생하는 Drift 감지에 한계 노출. 특히 단순 조기 탐지에 보상을 주는 평가 지표의 결함으로 인해 Random Guessing만으로도 F1 0.88이라는 왜곡된 성능 수치가 도출되는 문제 발생.

Technical Solution

Drift 발생 시점의 첫 번째 탐지만 True Positive로 인정하는 엄격한 Scoring Metric 재정의를 통한 평가 신뢰성 확보
Tool-call misuse, Goal shift 등 5가지 Drift 유형을 포함한 Trajectory 기반의 Gold Split 데이터셋 설계
단순 벡터 거리 기반의 Cosine-to-goal 방식 대신 시스템 권한 접근 및 Secret Read 후 External Call로 이어지는 패턴을 추적하는 Structural Detector 구현
Permitted features의 범위를 조절하는 Tight scope 설정을 통해 Recall과 Precision 간의 Trade-off 최적화
단순 수치 기반의 Drift Measure가 아닌 구조적 특징점(Structural features) 중심의 탐지 로직 적용

Impact

Metric 수정 후 Random baseline F1 score 0.88에서 0.19로 하락하며 평가 체계 정상화
Structural score 도입으로 2,924개 공격 시퀀스 중 90.4%의 공격 탐지 성공
Production verifier (tight scope) 적용 시 F1 0.843, Precision 0.742, Recall 0.977 달성
단순 Drift measure 대비 87.2%의 우회 공격을 차단하는 Structural Detection의 효율성 증명

실천 포인트

- AI 모니터링 평가 시 단순 탐지 여부가 아닌 '최초 발생 시점'의 정확도를 측정하는 지표인지 검토 - 벡터 유사도 기반 탐지의 한계를 인식하고, 권한 변경이나 외부 호출 같은 구조적 이벤트 체인(Event Chain) 감지 로직 설계 - False Positive 억제를 위해 허용 피처(Permitted features)의 범위를 엄격하게 제한하는 Tight scope 전략 고려

태그

#AI Agent #Structural Analysis #Evaluation Metric #Drift Detection #Adversarial Attack

원문 읽기