EY Canada가 사이버보안 보고서를 냈고 인용 대부분이 환각이었다
LLM Hallucination으로 인한 데이터 오염 및 검증 파이프라인 부재 사례
LLM Hallucination으로 인한 데이터 오염 및 검증 파이프라인 부재 사례
Why Your LLM Evals Are Lying to You
I Built a Benchmark for the Failures Generic LLM Evaluations Miss
Tenacious-Bench v0.1: a small B2B sales-outreach benchmark with contamination checks
SWE-bench Verified 포화 및 데이터 오염에 따른 LLM 코딩 역량 측정 한계 분석