Hacker NewsGrok의 ARC-AGI 0점 기록, LLM의 보간법 한계와 벤치마크의 실체Grok scored zero on ARC-AGI-3. Every 5-year-old did betterAI/MLintermediate4 분 소요2026년 4월 3일
Dev.toARC-AGI-3 벤치마크에서 최첨단 AI 모델들이 추상적 추론 테스트에서 1% 미만으로 실패하면서, AI의 구조적 한계와 인간 판단력의 필요성이 다시 한 번 입증되었다ARC-AGI-3 Proves AI Still Can't Replace Human Judgment - And That's the PointAI/MLintermediate13 분 소요2026년 3월 30일