피드로 돌아가기
Qwen3.7-Max: 에이전트 프런티어
GeekNewsGeekNews
AI/ML

Qwen3.7-Max: 에이전트 프런티어

Triton 10배 가속 및 GPQA 92.4점 달성한 에이전트 특화 모델 Qwen3.7-Max

xguru2026년 5월 21일21advanced

Context

기존 LLM의 단순 추론 능력을 넘어 수백 단계의 자율 실행이 가능한 에이전트 역량 확보 필요성 증대. 특히 Kernel 최적화 및 복잡한 도구 호출 과정에서 발생하는 상태 드리프트와 일반화 부족 문제를 해결해야 하는 상황.

Technical Solution

  • 학습 인스턴스를 Task, Harness, Verifier로 분리하여 설계한 교차 하네스 RL 학습 체계 도입
  • 특정 하네스의 지름길(Shortcut) 학습을 배제하고 일반화된 문제 해결 능력을 유도하는 학습 전략 적용
  • Terminal Bench 2.0 및 MCP-Mark 등 실제 에이전트 환경을 반영한 다각도 평가 프레임워크 구축
  • Reasoning effort를 'xhigh'로 설정하여 고난도 추론 시나리오의 해결 정밀도 향상
  • 도구 호출과 평가 루프를 반복 수행하는 자율 최적화 프로세스를 통한 커널 성능 극대화

1. 에이전트 설계 시 추론 깊이보다 외부 동작마다 작은 검증 산출물을 추가하여 상태 드리프트 방지

2. 벤치마크 수치 최적화 여부를 판단하기 위해 실제 사용 환경과 유사한 내부 벤치마크 세트 구성

3. 고성능 에이전트 구현을 위해 Reasoning effort 제어 파라미터의 영향도 분석

원문 읽기