피드로 돌아가기
Dev.toAI/ML
원문 읽기
Memory-first 아키텍처로 Open Model의 성능을 Frontier Model 수준으로 견인
We built a coding harness that beats frontier models using open ones. It's in open beta.
AI 요약
Context
최신 모델의 추론 능력에만 의존하는 Model-first 접근 방식은 세션 간 컨텍스트 유지 실패와 높은 비용 문제를 야기함. 모델 교체만으로는 해결 불가능한 상태 유지(Statefulness)와 기억력(Recall)의 한계가 시스템 병목 지점으로 작용함.
Technical Solution
- 모델을 교체 가능한 부품(Swappable part)으로 취급하고 Memory, Routing, Tool-calling 레이어를 우선 설계한 Memory-first 구조 채택
- LoCoMo 및 LongMemEval 1위 알고리즘 기반의 메모리 레이어를 통한 정밀한 데이터 Recall 구현
- 17,000개 이상의 모델을 통합 관리하는 Unified API 기반의 Routing 시스템 구축
- /expert 모드를 통한 모델 간 역할 분담(예: Opus 4.7 설계 및 DeepSeek V4 실행) 및 오케스트레이션 최적화
- 세션 프라이밍과 상태 관리를 기본 사양(Native)으로 내장하여 수동 유지보수 비용 제거
- RAG와 상태 저장 스레드를 통합한 Stateful by default 환경 설계
실천 포인트
- 모델 선정 전 세션 상태 관리(State Management)와 컨텍스트 유지 전략이 설계되었는지 검토 - 고비용 모델(Reasoning)과 저비용 모델(Execution)의 역할을 분리하는 Routing 레이어 도입 고려 - 외부 RAG 도구의 단순 결합보다 시스템 네이티브 수준의 Persistence 레이어 구현 가능성 타진