피드로 돌아가기
Grok scored zero on ARC-AGI-3. Every 5-year-old did better
Hacker NewsHacker News
AI/ML

Grok의 ARC-AGI 0점 기록, LLM의 보간법 한계와 벤치마크의 실체

Grok scored zero on ARC-AGI-3. Every 5-year-old did better

2026년 4월 3일2intermediate

Context

LLM이 학습 데이터 분포 내에서만 답을 찾는 Interpolation 방식의 구조적 한계. 훈련 데이터가 없는 새로운 추론 문제 해결 시 성능이 급격히 저하되는 현상. 실제 지능이 아닌 데이터 패턴 매칭에 의존하는 아키텍처의 맹점.

Technical Solution

  • ARC-AGI 벤치마크를 통한 LLM의 실제 추론 능력 및 일반화 성능 검증
  • 학습 데이터에 포함되지 않은 미지의 문제에 대한 제로샷(Zero-shot) 해결 능력 측정
  • Compute 및 Training Data 투입만으로 해결 불가능한 새로운 평가 지표 설정
  • 특정 변형 문제(Variant)에서의 고득점 사례와 공식 스코어 간의 괴리 분석을 통한 성능 부풀리기 기법 식별
  • 단순 통계적 예측을 넘어선 AGI(Artificial General Intelligence) 구현을 위한 아키텍처적 전환 필요성 제기

Impact

  • Grok의 ARC-AGI 점수 0점 기록
  • 특정 LLM의 공식 스코어 0.25% 달성
  • 일부 변형 문제에서 Claude가 기록한 97.1% 수치와 실제 공식 점수 간의 극명한 차이
  • 또 다른 모델의 ARC-AGI 점수 0.37% 기록

Key Takeaway

데이터 분포 외 영역에서 붕괴하는 LLM의 Interpolation 한계를 인지하고, 단순 벤치마크 수치보다 일반화 성능(Generalization)을 검증하는 엄격한 평가 체계 설계가 필수적임.


LLM 도입 시 벤치마크의 'Variant' 점수에 현혹되지 말고, 실제 도메인의 'Out-of-distribution' 데이터셋을 통한 자체 검증을 수행할 것

원문 읽기