Memory-first 아키텍처로 Open Model의 성능을 Frontier Model 수준으로 견인

We built a coding harness that beats frontier models using open ones. It's in open beta.

Jonathan Murray2026년 6월 6일5분advanced

AI 요약

Context

최신 모델의 추론 능력에만 의존하는 Model-first 접근 방식은 세션 간 컨텍스트 유지 실패와 높은 비용 문제를 야기함. 모델 교체만으로는 해결 불가능한 상태 유지(Statefulness)와 기억력(Recall)의 한계가 시스템 병목 지점으로 작용함.

Technical Solution

모델을 교체 가능한 부품(Swappable part)으로 취급하고 Memory, Routing, Tool-calling 레이어를 우선 설계한 Memory-first 구조 채택
LoCoMo 및 LongMemEval 1위 알고리즘 기반의 메모리 레이어를 통한 정밀한 데이터 Recall 구현
17,000개 이상의 모델을 통합 관리하는 Unified API 기반의 Routing 시스템 구축
/expert 모드를 통한 모델 간 역할 분담(예: Opus 4.7 설계 및 DeepSeek V4 실행) 및 오케스트레이션 최적화
세션 프라이밍과 상태 관리를 기본 사양(Native)으로 내장하여 수동 유지보수 비용 제거
RAG와 상태 저장 스레드를 통합한 Stateful by default 환경 설계

실천 포인트

- 모델 선정 전 세션 상태 관리(State Management)와 컨텍스트 유지 전략이 설계되었는지 검토 - 고비용 모델(Reasoning)과 저비용 모델(Execution)의 역할을 분리하는 Routing 레이어 도입 고려 - 외부 RAG 도구의 단순 결합보다 시스템 네이티브 수준의 Persistence 레이어 구현 가능성 타진

태그

#Orchestration #Routing #Memory-first #Model-Agnostic #Stateful

원문 읽기