피드로 돌아가기
Which AI models are actually "brain-like"? I built an open-source benchmark to measure it
Dev.toDev.to
AI/ML

AI 모델과 뇌 활성화 패턴의 일치도를 측정하는 오픈소스 벤치마크 CortexLab

Which AI models are actually "brain-like"? I built an open-source benchmark to measure it

Sid2026년 4월 3일2advanced

Context

Meta의 TRIBE v2는 정점 수준의 뇌 활성화 예측값만 제공하는 구조. 예측 데이터만으로는 모델 간의 통계적 비교나 뇌 영역별 유의미한 분석이 불가능한 한계. AI 모델의 내부 특징이 실제 인간의 뇌 활동 패턴과 얼마나 일치하는지 검증할 분석 레이어의 부재.

Technical Solution

  • RSA, CKA, Procrustes 유사도 점수 체계를 도입하여 다양한 AI 모델의 내부 특징과 뇌 활동 간의 정렬 상태를 정량적으로 비교하는 구조
  • Permutation testing과 Bootstrap CI, ROI별 FDR correction을 적용하여 분석 결과의 통계적 유의성을 검증하는 체계
  • 시각, 청각, 언어, 실행 기능의 4개 차원으로 인지 부하를 점수화하고 ROI별 피크 응답 지연 시간을 통해 피질 처리 계층을 분석하는 로직
  • 부분 상관관계 기반의 ROI 연결 행렬과 네트워크 클러스터링을 통해 뇌 네트워크의 모듈성 및 중심성을 분석하는 전략
  • 슬라이딩 윈도우 스트리밍 예측 방식을 구현하여 BCI 파이프라인에 적용 가능한 실시간 추론 환경 설계
  • HRF 합성 데이터와 공간적 평활화를 적용한 Streamlit 대시보드로 GPU 없이 분석 도구를 탐색하는 인터랙티브 환경 구축

Impact

  • LLaMA-3.2-3B 모델의 CKA 점수 +0.8848 (p=0.731, CI=[0.922, 0.949]) 달성
  • V-JEPA2-ViT-G 모델의 CKA 점수 +0.8731 (p=0.438, CI=[0.915, 0.944]) 달성
  • DINOv2-ViT-S 모델의 CKA 점수 +0.8434 (p=0.403, CI=[0.895, 0.932]) 달성
  • CLIP-ViT-B32 모델의 CKA 점수 +0.8561 (p=0.174, CI=[0.903, 0.937]) 달성

Key Takeaway

단순한 예측값 제공을 넘어 통계적 검증과 해석 가능성을 더한 분석 프레임워크가 있어야 실제 결론을 도출하는 과학적 벤치마크가 완성된다는 설계 원칙.


AI 모델의 생물학적 타당성을 검증할 때 단순 유사도 측정에 그치지 말고 FDR correction과 Noise ceiling 추정을 통해 통계적 신뢰도를 확보할 것

원문 읽기