Dev.toAI 에이전트 모니터링의 F1 0.88 허구를 걷어낸 Structural Detection 도입The standard way to score AI agent monitors is gameable a coin flip scores F1 0.88AI/MLadvanced11 분 소요4일 전