Qwen3.5-35B MoE 도입을 통한 206 tok/s 성능 확보 및 스캐폴딩 최적화

Qwen Is Not Yet Ready to Power Local OpenClaw Deployments

Rob2026년 5월 26일9분advanced

AI 요약

Context

Local LLM 기반의 OpenClaw 배포 과정에서 모델의 벤치마크 성능과 실제 에이전트 환경의 동작 간 괴리 발생. 특히 Tool Call 및 Thinking Token 처리 로직이 누락된 기본 Chat Template 사용으로 인해 시스템 가시성과 제어력이 상실된 상태.

Technical Solution

Jinja 템플릿 패치를 통한 비순차적 System Message 처리 로직 구현으로 런타임 Exception 제거
--chat-template-file 옵션을 활용하여 Native 템플릿의 엄격한 순서 검증 로직을 우회하고 Tool Call 가시성 확보
Skill 로딩 방식을 조건부 호출에서 무조건적 로드 방식으로 전환하여 Context 부족으로 인한 추론 오류 방지
llama.cpp b9180+ 버전 도입 및 MTP Speculative Decoding 설정을 통한 토큰 생성 처리량 최적화
Segfault 유발 가능성이 있는 -sm tensor 옵션을 배제하여 시스템 안정성 확보
MCP(Model Context Protocol) 연동을 통한 실시간 외부 데이터 파이프라인 구축 및 응답 정확도 개선

실천 포인트

- Local LLM 도입 시 Native Jinja 템플릿의 제약 사항(메시지 순서 등) 사전 검토 - 에이전트 설계 시 모델의 추론 능력에 의존하지 말고 필요한 Context를 명시적으로 주입하는 전략 채택 - Speculative Decoding 적용 시 llama.cpp 버전 및 특정 옵션(tensor 등)의 호환성 검증 - Tool Call 실패 시 모델 성능보다 Chat Template 및 API Response 포맷 우선 확인

태그

#MoE #MCP #llama.cpp #Tool Calling #Speculative Decoding

원문 읽기