피드로 돌아가기
Dev.toAI/ML
원문 읽기
preserve_thinking 도입으로 Agentic Coding 성능 극대화한 Qwen3.6-Max-Preview
Alibaba's Qwen3.6-Max-Preview Challenges GPT-5.4 on Agentic Coding
AI 요약
Context
기존 LLM 기반 Agent는 다단계 도구 호출 과정에서 Reasoning state를 상실하여 의사결정 일관성이 저하되는 병목 발생. 특히 복잡한 코드베이스 내의 다회차 대화 시 Chain-of-thought 유지의 어려움으로 인한 성능 한계 직면.
Technical Solution
- MoE(Mixture of Experts) 아키텍처 채택을 통한 추론 비용 최적화 및 고성능 지식 유지
- Total 35B 파라미터 중 토큰당 약 3B만 활성화하는 Sparse Routing 구조 설계
- preserve_thinking 기능을 통한 Multi-turn 대화 간 Reasoning trace 유지 및 상태 손실 방지
- 256K Context Window 확보를 통한 대규모 코드베이스의 단일 프롬프트 수용 능력 강화
- OpenAI 및 Anthropic API 규격 호환 설계를 통한 기존 파이프라인의 전환 비용 최소화
- Closed-weights 전략 채택을 통한 독점적 API 서비스 모델로의 비즈니스 구조 전환
Impact
- Terminal-Bench 2.0에서 65.4% 기록하며 Claude Opus 4.6와 동등 수준 달성
- QwenWebBench ELO 1558 기록으로 Claude Opus 4.5(1182) 대비 압도적 우위 확보
- SciCode 및 SkillsBench에서 이전 모델(Qwen3.6-Plus) 대비 각각 10.8점, 9.9점 성능 향상
- NL2Repo 벤치마크에서 이전 티어 모델 대비 5.0점의 기여도 개선
Key Takeaway
Agentic Workflow의 핵심은 단순 모델 크기가 아닌 Reasoning state의 지속성 유지에 있으며, 이를 위한 상태 보존 메커니즘이 실질적인 코딩 에이전트의 성능을 결정함.
실천 포인트
- Multi-step Agent 구축 시 추론 과정(Reasoning Trace)이 유실되는지 검증하고 상태 유지 메커니즘 검토 - 프론트엔드 코드 생성 특화 태스크 수행 시 QwenWebBench 고득점 모델의 API 교체 테스트 수행 - 프로덕션 적용 전 Preview 모델의 SLA 부재에 따른 가용성 리스크 분석 및 폴백 전략 수립 - 인프라 비용 절감이 우선인 경우 Closed-weights API 대신 Qwen
3.6-35B-A3B 오픈 웨이트 모델 검토