#inter-rater-reliability 아티클 모음

GeekNews

실제 팩트체크에서 프런티어 LLM 간 불일치

Frontier LLM 5종 간 67%의 판정 불일치 및 시스템적 불안정성 확인

AI/MLadvanced20 분 소요2026년 5월 29일

Dev.to

The AI audit rep-curve: why 1 run gives you 67 percent reliability

AI/MLintermediate16 분 소요2026년 5월 12일