Show GN: MemAware – AI 에이전트가 "내가 뭘 알고 있는지"를 아는지 측정하는 벤치마크

MemAware 벤치마크가 기존 메모리 테스트의 검색 의존성을 노출해 BM25와 벡터 검색이 암시적 맥락 연결에서 0.7~2.8% 성능만 달성하는 현실 입증

0xvinsohn2026년 3월 27일2분intermediate

AI 요약

Context

LoCoMo, LongMemEval, MemoryAgentBench 등 기존 메모리 벤치마크는 검색 가능한 과거 대화 재현만 테스트하므로 실제 멀티세션 에이전트의 핵심 난제인 언급되지 않은 암시적 맥락 추출을 측정하지 못하고 있습니다. ChatGPT Memory, Mem0, MemGPT 같은 현재 RAG 기반 메모리 시스템은 모두 매번 검색 패턴에 의존하는데, 이는 토큰을 5배 소모하면서도 대부분 무관한 노이즈만 증가시킵니다.

Technical Solution

암시적 맥락 측정 추가: 검색 키워드가 겹치지 않는 도메인 간 연결 문제를 Hard 난이도로 설계 (예: "성적표 요청" ← "성 변경" 이력)
난이도별 테스트셋 구성: Easy(키워드 겹침), Medium(같은 도메인·키워드 불일치), Hard(완전히 다른 도메인) 각 300개 질문으로 총 900개 질문 벤치마크
베이스라인 검증: 메모리 없음 vs BM25 검색 vs BM25+벡터 검색 3가지 방식을 동일 데이터셋에 평가
LongMemEval 기반 설계: MIT 라이선스 세션 데이터를 기반으로 플러그인 구조로 자체 메모리 시스템 테스트 가능하도록 구현

Impact

메모리 없음에서 BM25만 사용시: 0.8% → 2.8% 성능 향상 (미미한 개선)
BM25+벡터 검색도 Hard 난이도에서 0.7% (메모리 없는 것과 동일)
검색 기반 접근의 토큰 비용: 질문당 약 4.7K 토큰 소모

Key Takeaway

검색 가능한 명시적 정보만으로는 멀티세션 에이전트의 메모리 능력을 평가할 수 없으며, 서로 다른 도메인 간 암시적 맥락 추론 능력을 측정하는 벤치마크 설계가 현존 RAG 기반 메모리 시스템의 구조적 한계를 드러냅니다.

실천 포인트

AI 에이전트 메모리 시스템을 개발하는 팀에서 검색 기반 검증만으로는 부족하며, 키워드 겹침이 없는 도메인 간 연결(예: 통근 시간 기억 → 알람 설정 조언)을 테스트해야 실제 멀티세션 능력을 측정할 수 있습니다.

태그

#AI Agent #Memory System #Benchmark #RAG #LongMemEval

원문 읽기

Show GN: MemAware – AI 에이전트가 &quot;내가 뭘 알고 있는지&quot;를 아는지 측정하는 벤치마크

Context

Technical Solution

Impact

Key Takeaway

Show GN: MemAware – AI 에이전트가 "내가 뭘 알고 있는지"를 아는지 측정하는 벤치마크