피드로 돌아가기
llama.cpp supports Sparse MoE, new Qwen3.6 GGUF, & WebWorld for local agents
Dev.toDev.to
AI/ML

llama.cpp의 310B Sparse MoE 지원 및 Qwen3 기반 Local Agent 생태계 확장

llama.cpp supports Sparse MoE, new Qwen3.6 GGUF, & WebWorld for local agents

soy2026년 5월 7일3intermediate

Context

거대 파라미터 모델의 로컬 추론 시 발생하는 VRAM 부족과 연산 비용 증가라는 하드웨어 제약 존재. Dense 모델 구조로는 소비자급 GPU에서 고성능 LLM을 구동하는 데 한계가 있음.

Technical Solution

  • Sparse MoE 구조 채택을 통한 전체 310B 파라미터 중 추론 시 15B만 활성화하는 효율적 연산 설계
  • GGUF 포맷 및 NVFP4 Quantization 적용으로 메모리 점유율을 낮춘 최적화된 가중치 로드 방식 구현
  • 100만 건 이상의 실제 웹 상호작용 Trajectory 데이터를 학습시킨 Qwen3 기반 WebWorld 모델 파인튜닝
  • GPU 메모리 용량에 따라 선택 가능한 8B, 14B, 32B의 계층적 파라미터 사이즈 제공으로 배포 유연성 확보
  • MTP(Multi-Token Prediction) 보존 및 Uncensored 튜닝을 통한 지시 이행 능력 및 응답 자유도 향상

- 로컬 GPU 환경에서 고성능 모델 필요 시 Dense 모델보다 Sparse MoE 기반 GGUF 모델 우선 검토 - 특정 도메인 에이전트 개발 시 WebWorld와 같이 실제 interaction trajectory 기반으로 튜닝된 모델 활용 - 추론 성능과 메모리 사이의 Trade-off 해결을 위해 NVFP4 등 최신 Quantization 포맷 적용 여부 확인

원문 읽기