Qwen3.6-Plus, Terminal-Bench 2.0에서 Claude Opus 4.5를 2.3%p 차이로 능가함

Qwen3.6-Plus API: ชนะ Claude บน Terminal Benchmarks

Thanawat Wongchai2026년 4월 2일7분intermediate

AI 요약

Context

Claude Opus 4.5가 Agent 기반 개발 환경에서 최고 성능을 유지하고 있었으나, Qwen3.6-Plus가 Terminal 관련 작업에서 이를 넘어섬. 실제 shell 명령어 실행과 다단계 워크플로우 처리 능력이 핵심 경쟁 영역으로 부상함.

Terminal-Bench 2.0에서 61.6%를 달성하여 Claude Opus 4.5(59.3%)를 능가함. MCPMark 48.2%, DeepPlanning 41.5%, GPQA 90.4%에서 모두 Claude를 상회함.

Sparse Activation 기반 MoE 모델이 고성능과 낮은 비용을 동시에 달성 가능함. Agent 작업에서 reasoning 체인의 보존이 반복 추론 품질에 결정적 역할을 함.

실천 포인트

Alibaba Cloud Model Studio에서 API 접근 가능하며, preserve_thinking=true 설정으로 Claude Code, OpenClaw와 호환 연동하여 다단계 Agent 워크플로우를 구축할 수 있음.

태그