피드로 돌아가기
We audited LoCoMo: 6.4% of the answer key is wrong and the judge accepts up to 63% of intentionally
Dev.toDev.to
AI/ML

LoCoMo 벤치마크 오류 6.4% 발견, LLM Judge의 신뢰성 한계 분석

We audited LoCoMo: 6.4% of the answer key is wrong and the judge accepts up to 63% of intentionally

Penfield2026년 4월 4일5advanced

Context

기존 Long-term Memory 벤치마크인 LoCoMo의 정답 키 오류와 평가 모델의 낮은 변별력 확인. LongMemEval-S 역시 실제 메모리 능력이 아닌 Context Window 용량 측정에 치중한 구조적 한계 노출.

Technical Solution

  • LoCoMo 정답 키 전수 조사로 환각 사실 및 시간 추론 오류 등 99개 오답 사례 식별
  • gpt-4o-mini 기반 LLM Judge를 대상으로 의도적 오답 생성 및 교차 검증 수행
  • 정답 키와 주제만 유사하고 세부 정보가 누락된 모호한 답변의 통과율 분석
  • Context Window 크기와 데이터셋 크기를 비교하여 메모리 retrieval과 단순 컨텍스트 관리 능력 구분
  • LoCoMo-Plus의 인지적 질문(Cognitive Questions) 도입을 통한 암시적 추론 평가 가능성 검토
  • 정량적 데이터 기반의 벤치마크 무결성 검증 및 표준화된 Evaluation Pipeline 수립 필요성 제시

Impact

  • LoCoMo 정답 키 중 6.4%의 오류 발견 및 이론적 최대 점수 93.6%로 제한
  • LLM Judge가 의도적인 오답의 최대 62.81%를 정답으로 수용하는 낮은 변별력 확인
  • LongMemEval-S의 테스트 코퍼스 크기 약 115K tokens로 최신 모델의 Context Window(200K~1M) 범위 내 포함
  • gpt-4o 기반 Full-context Baseline 점수 60.20% 기록

Key Takeaway

벤치마크의 정답 데이터 무결성과 평가 모델의 적대적 검증(Adversarial Validation) 없이는 모델 간 성능 비교가 불가능함. 진정한 메모리 평가를 위해서는 데이터셋 크기가 모델의 Context Window를 반드시 초과해야 함.


LLM 기반 평가 시스템 구축 시, 의도적인 오답 셋을 활용한 Judge 모델의 변별력 테스트를 선행할 것

원문 읽기