128B Dense 모델 기반 SWE-Bench Verified 77.6% 달성 및 Async Cloud Agent 구현

Mistral Medium 3.5

2026년 4월 29일5분advanced

AI 요약

Context

로컬 환경에 국한된 Coding Agent의 실행 제약과 개발자의 실시간 개입으로 인한 병목 현상 발생. 복잡한 멀티스텝 태스크 수행을 위한 추론 능력과 장기 실행 가능성(Long-horizon)을 갖춘 고성능 모델의 필요성 증대.

Technical Solution

Instruction-following, Reasoning, Coding 능력을 단일 128B Dense 모델로 통합한 Mistral Medium 3.5 설계
256k Context Window 확보를 통한 대규모 코드베이스 및 장기 컨텍스트 유지 능력 강화
Request 단위 Reasoning Effort 설정을 통한 빠른 응답과 심층 추론 간의 리소스 최적화 제어
Remote Runtime 기반의 Async Cloud Agent 구조를 도입하여 로컬 CLI 세션의 Cloud Teleportation 및 병렬 실행 구현
격리된 Sandbox 환경 내에서 도구 호출, 파일 수정, 의존성 설치를 수행하는 Agentic Workflow 구축
변동 이미지 크기와 종횡비를 처리하기 위한 전용 Vision Encoder의 Scratch 기반 학습 및 통합

Impact

SWE-Bench Verified 기준 77.6% 점수로 Devstral 2 및 Qwen3.5 397B A17B 대비 우위 확보
$\tau^3$-Telecom 벤치마크 91.4점 달성으로 에이전트 수행 능력 검증
최소 4개의 GPU만으로 Self-hosting 가능한 효율적 모델 사이즈 구현
API 비용 Input $1.5/M tokens, Output $7.5/M tokens의 가격 책정

Key Takeaway

단일 Dense 모델의 추론 능력 고도화와 비동기 클라우드 런타임의 결합을 통해, 단순한 챗봇을 넘어 실제 엔지니어링 워크플로우(PR 생성, CI 조사 등)를 자동화하는 Agentic System으로의 진화 확인.

실천 포인트

- LLM 기반 에이전트 설계 시 사용자의 실시간 대기 시간을 제거하는 Async Architecture 검토 - 태스크 복잡도에 따라 추론 비용을 조절할 수 있는 Configurable Reasoning 설정 적용 - 에이전트의 안정성 확보를 위해 외부 툴 호출 및 코드 실행을 위한 격리된 Sandbox 환경 구축 - 단순 텍스트 응답이 아닌 다운스트림 시스템이 소비 가능한 Structured Output 생성 로직 설계

태그

#Context Window #Self-Hosting #Dense Model #Agentic Workflow #Async Execution

원문 읽기