피드로 돌아가기
Dev.toAI/ML
원문 읽기
llama.cpp의 310B Sparse MoE 지원 및 Qwen3 기반 Local Agent 생태계 확장
llama.cpp supports Sparse MoE, new Qwen3.6 GGUF, & WebWorld for local agents
AI 요약
Context
거대 파라미터 모델의 로컬 추론 시 발생하는 VRAM 부족과 연산 비용 증가라는 하드웨어 제약 존재. Dense 모델 구조로는 소비자급 GPU에서 고성능 LLM을 구동하는 데 한계가 있음.
Technical Solution
- Sparse MoE 구조 채택을 통한 전체 310B 파라미터 중 추론 시 15B만 활성화하는 효율적 연산 설계
- GGUF 포맷 및 NVFP4 Quantization 적용으로 메모리 점유율을 낮춘 최적화된 가중치 로드 방식 구현
- 100만 건 이상의 실제 웹 상호작용 Trajectory 데이터를 학습시킨 Qwen3 기반 WebWorld 모델 파인튜닝
- GPU 메모리 용량에 따라 선택 가능한 8B, 14B, 32B의 계층적 파라미터 사이즈 제공으로 배포 유연성 확보
- MTP(Multi-Token Prediction) 보존 및 Uncensored 튜닝을 통한 지시 이행 능력 및 응답 자유도 향상
실천 포인트
- 로컬 GPU 환경에서 고성능 모델 필요 시 Dense 모델보다 Sparse MoE 기반 GGUF 모델 우선 검토 - 특정 도메인 에이전트 개발 시 WebWorld와 같이 실제 interaction trajectory 기반으로 튜닝된 모델 활용 - 추론 성능과 메모리 사이의 Trade-off 해결을 위해 NVFP4 등 최신 Quantization 포맷 적용 여부 확인