Dev.toAI 에이전트 메모리 시스템이 LoCoMo 벤치마크에서 높은 검색 정확도를 기록하면서도 오래된 정보를 신뢰도 있게 반환하거나 모순된 정보를 동시에 제공하는 근본적인 평가 지표 부재What Memory Benchmarks Don't TestAI/MLintermediate13 분 소요2026년 3월 26일