피드로 돌아가기
InfoQInfoQ
AI/ML

Gemini 3 Deep Think 기반 Aletheia의 자율 수학 연구 및 60% 정답률 달성

Google’s Aletheia Advances the State of the Art of Fully Autonomous Agentic Math Research

Bruno Couriol2026년 4월 19일3advanced

Context

기존 LLM의 Data Contamination 문제로 인한 벤치마크 신뢰도 하락 및 Hallucination 발생이 연구 수준의 수학 증명 자동화의 주요 병목 지점으로 작용. 단순한 문제 해결 능력보다 정답의 정확성과 신뢰성을 확보하는 것이 핵심 과제로 대두.

Technical Solution

  • Gemini 3 Deep Think 아키텍처 기반의 extended test-time compute 활용을 통한 추론 시간 연장 및 논리 정교화
  • Generator, Verifier, Reviser로 구성된 Multi-agent framework 설계를 통한 '제안-검증-수정'의 반복적 루프 구현
  • Hallucination 억제를 위해 정답 불확실 시 'No solution found'를 출력하는 Self-filtering 메커니즘 적용
  • Google Search 연동을 통한 외부 문헌 참조 및 근거 없는 인용(Unfounded Citations) 방지 구조 설계
  • 수학적 증명 과정을 Propose, Verify, Fail, Repair, Merge 단계로 정의한 CI/CD 파이프라인 형태의 연구 루프 구축

Impact

  • FirstProof challenge 내 미공개 연구급 문제 10개 중 6개 해결(60% 성공률)
  • IMO-ProofBench 기준 약 91.9%의 고득점 기록
  • Expert human evaluators 기준 제안 솔루션의 60%가 minor revisions 후 출판 가능 수준으로 판정

1. 고신뢰성 시스템 설계 시 성능(Capability)보다 정확도(Accuracy)를 우선하는 Self-filtering 로직 검토

2. 복잡한 논리 추론 과제 수행 시 단일 모델 호출 대신 Generator-Verifier-Reviser 구조의 Multi-agent 워크플로우 적용

3. LLM의 근거 없는 출력 방지를 위해 외부 신뢰 소스(Knowledge Base/Search)를 검증 단계에 강제 결합하는 구조 설계

원문 읽기