GeekNews실제 팩트체크에서 프런티어 LLM 간 불일치Frontier LLM 5종 간 67%의 판정 불일치 및 시스템적 불안정성 확인AI/MLadvanced20 분 소요2026년 5월 29일
Dev.toAI 검색 신뢰도 확보를 위한 5-rep 샘플링 기반 검증 체계 구축The AI audit rep-curve: why 1 run gives you 67 percent reliabilityAI/MLintermediate16 분 소요2026년 5월 12일