피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Qwen3.6-35B-A3B: 모든 사용자를 위한 에이전트형 코딩 성능 공개
Qwen3.6-35B-A3B 기반 로컬 LLM의 140 token/s 처리 성능 및 에이전트 능력 검증
AI 요약
Context
SaaS 기반 LLM의 토큰 비용 및 프라이버시 제약으로 인한 온프레미스 추론 수요 증가. 기존 소형 모델의 낮은 추론 품질과 대형 모델의 과도한 VRAM 요구량 사이의 병목 발생.
Technical Solution
- MoE(Mixture of Experts) 구조 기반의 A3B 아키텍처 채택을 통한 추론 속도 최적화
- Unsloth GGUF 양자화를 통한 VRAM 점유율 감소 및 RTX 4090 내 메모리 오프로드 없는 상주 구현
--no-mmproj-offload옵션 설정을 통한 멀티모달 데이터 처리 시의 충돌 방지 및 안정성 확보- Distillation 기법을 적용한 모델 경량화로 3.5 버전 대비 코딩 및 에이전트 수행 능력 향상
- vLLM 엔진과 결합한 GPU 100% 활용 구조 설계를 통한 대규모 문서 배치 처리 파이프라인 구축
Impact
- 추론 속도 약 140 token/s 달성 및 RTX 3060 12GB 환경에서 40 t/s 이상의 성능 확인
- M1 Max 64GB 환경에서 90초 미만의 추론 시간 기록
실천 포인트
1. VRAM 제약 환경에서는 MoE 구조 모델의 GGUF 양자화 버전을 우선 검토할 것
2. 멀티모달 모델 사용 시 하드웨어 가속 충돌 방지를 위한 오프로드 옵션 설정을 확인할 것
3. 실시간성이 낮은 대량 문서 처리 작업은 API 호출보다 vLLM 기반 로컬 배치 처리가 효율적임