피드로 돌아가기
Qwen3.6-35B-A3B: 모든 사용자를 위한 에이전트형 코딩 성능 공개
GeekNewsGeekNews
AI/ML

Qwen3.6-35B-A3B: 모든 사용자를 위한 에이전트형 코딩 성능 공개

Qwen3.6-35B-A3B 기반 로컬 LLM의 140 token/s 처리 성능 및 에이전트 능력 검증

neo2026년 4월 17일5intermediate

Context

SaaS 기반 LLM의 토큰 비용 및 프라이버시 제약으로 인한 온프레미스 추론 수요 증가. 기존 소형 모델의 낮은 추론 품질과 대형 모델의 과도한 VRAM 요구량 사이의 병목 발생.

Technical Solution

  • MoE(Mixture of Experts) 구조 기반의 A3B 아키텍처 채택을 통한 추론 속도 최적화
  • Unsloth GGUF 양자화를 통한 VRAM 점유율 감소 및 RTX 4090 내 메모리 오프로드 없는 상주 구현
  • --no-mmproj-offload 옵션 설정을 통한 멀티모달 데이터 처리 시의 충돌 방지 및 안정성 확보
  • Distillation 기법을 적용한 모델 경량화로 3.5 버전 대비 코딩 및 에이전트 수행 능력 향상
  • vLLM 엔진과 결합한 GPU 100% 활용 구조 설계를 통한 대규모 문서 배치 처리 파이프라인 구축

Impact

  • 추론 속도 약 140 token/s 달성 및 RTX 3060 12GB 환경에서 40 t/s 이상의 성능 확인
  • M1 Max 64GB 환경에서 90초 미만의 추론 시간 기록

1. VRAM 제약 환경에서는 MoE 구조 모델의 GGUF 양자화 버전을 우선 검토할 것

2. 멀티모달 모델 사용 시 하드웨어 가속 충돌 방지를 위한 오프로드 옵션 설정을 확인할 것

3. 실시간성이 낮은 대량 문서 처리 작업은 API 호출보다 vLLM 기반 로컬 배치 처리가 효율적임

원문 읽기