GeekNewsSWE-bench Verified가 더 이상 프런티어 코딩 역량을 측정하지 못하는 이유SWE-bench Verified 포화 및 데이터 오염에 따른 LLM 코딩 역량 측정 한계 분석AI/MLadvanced15 분 소요17시간 전