피드로 돌아가기
Dev.toAI/ML
원문 읽기
Qwen3.6-Plus, Terminal-Bench 2.0에서 Claude Opus 4.5를 2.3%p 차이로 능가함
Qwen3.6-Plus API: ชนะ Claude บน Terminal Benchmarks
AI 요약
Context
Claude Opus 4.5가 Agent 기반 개발 환경에서 최고 성능을 유지하고 있었으나, Qwen3.6-Plus가 Terminal 관련 작업에서 이를 넘어섬. 실제 shell 명령어 실행과 다단계 워크플로우 처리 능력이 핵심 경쟁 영역으로 부상함.
Technical Solution
- Mixture-of-Experts 아키텍처: Sparse Activation 방식으로 토큰당 일부 파라미터만 활성화하여 비용 효율성 확보함
- 1M 토큰 Context Window: 대규모 코드베이스 전체를 단일 요청에서 처리 가능함
- preserve_thinking 파라미터: 다단계 Agent Loop에서 이전 reasoning 체인을 보존하여 복잡한 작업 처리 가능함
- OpenAI/Anthropic 호환 API: 기존 Claude Code, OpenClaw, Qwen Code와 즉시 연동 가능함
- Multimodal 네이티브 지원: 문서, 이미지, 비디오를 단일 모델에서 처리함
Impact
Terminal-Bench 2.0에서 61.6%를 달성하여 Claude Opus 4.5(59.3%)를 능가함. MCPMark 48.2%, DeepPlanning 41.5%, GPQA 90.4%에서 모두 Claude를 상회함.
Key Takeaway
Sparse Activation 기반 MoE 모델이 고성능과 낮은 비용을 동시에 달성 가능함. Agent 작업에서 reasoning 체인의 보존이 반복 추론 품질에 결정적 역할을 함.
실천 포인트
Alibaba Cloud Model Studio에서 API 접근 가능하며, preserve_thinking=true 설정으로 Claude Code, OpenClaw와 호환 연동하여 다단계 Agent 워크플로우를 구축할 수 있음.