피드로 돌아가기
Hacker NewsAI/ML
원문 읽기
Grok의 ARC-AGI 0점 기록, LLM의 보간법 한계와 벤치마크의 실체
Grok scored zero on ARC-AGI-3. Every 5-year-old did better
AI 요약
Context
LLM이 학습 데이터 분포 내에서만 답을 찾는 Interpolation 방식의 구조적 한계. 훈련 데이터가 없는 새로운 추론 문제 해결 시 성능이 급격히 저하되는 현상. 실제 지능이 아닌 데이터 패턴 매칭에 의존하는 아키텍처의 맹점.
Technical Solution
- ARC-AGI 벤치마크를 통한 LLM의 실제 추론 능력 및 일반화 성능 검증
- 학습 데이터에 포함되지 않은 미지의 문제에 대한 제로샷(Zero-shot) 해결 능력 측정
- Compute 및 Training Data 투입만으로 해결 불가능한 새로운 평가 지표 설정
- 특정 변형 문제(Variant)에서의 고득점 사례와 공식 스코어 간의 괴리 분석을 통한 성능 부풀리기 기법 식별
- 단순 통계적 예측을 넘어선 AGI(Artificial General Intelligence) 구현을 위한 아키텍처적 전환 필요성 제기
Impact
- Grok의 ARC-AGI 점수 0점 기록
- 특정 LLM의 공식 스코어 0.25% 달성
- 일부 변형 문제에서 Claude가 기록한 97.1% 수치와 실제 공식 점수 간의 극명한 차이
- 또 다른 모델의 ARC-AGI 점수 0.37% 기록
Key Takeaway
데이터 분포 외 영역에서 붕괴하는 LLM의 Interpolation 한계를 인지하고, 단순 벤치마크 수치보다 일반화 성능(Generalization)을 검증하는 엄격한 평가 체계 설계가 필수적임.
실천 포인트
LLM 도입 시 벤치마크의 'Variant' 점수에 현혹되지 말고, 실제 도메인의 'Out-of-distribution' 데이터셋을 통한 자체 검증을 수행할 것