Dev.to동일 Model Family 기반 LLM 평가 시 Self-Preference Bias로 인한 오류 방어율 86% 기록Part 2 of 6: You Upgraded the Judge. It Got Worse. You Kept Upgrading.AI/MLintermediate13 분 소요2026년 6월 4일
Dev.toLLM Judge의 85% 편향성으로 인한 True Negative Rate 42.5%의 한계Part 1 of 6: Your Pipeline Has a Judge. The Judge Is Cooked.AI/MLintermediate11 분 소요2026년 6월 4일