피드로 돌아가기
Dev.toAI/ML
원문 읽기
Qwen3.5-35B MoE 도입을 통한 206 tok/s 성능 확보 및 스캐폴딩 최적화
Qwen Is Not Yet Ready to Power Local OpenClaw Deployments
AI 요약
Context
Local LLM 기반의 OpenClaw 배포 과정에서 모델의 벤치마크 성능과 실제 에이전트 환경의 동작 간 괴리 발생. 특히 Tool Call 및 Thinking Token 처리 로직이 누락된 기본 Chat Template 사용으로 인해 시스템 가시성과 제어력이 상실된 상태.
Technical Solution
- Jinja 템플릿 패치를 통한 비순차적 System Message 처리 로직 구현으로 런타임 Exception 제거
- --chat-template-file 옵션을 활용하여 Native 템플릿의 엄격한 순서 검증 로직을 우회하고 Tool Call 가시성 확보
- Skill 로딩 방식을 조건부 호출에서 무조건적 로드 방식으로 전환하여 Context 부족으로 인한 추론 오류 방지
- llama.cpp b9180+ 버전 도입 및 MTP Speculative Decoding 설정을 통한 토큰 생성 처리량 최적화
- Segfault 유발 가능성이 있는 -sm tensor 옵션을 배제하여 시스템 안정성 확보
- MCP(Model Context Protocol) 연동을 통한 실시간 외부 데이터 파이프라인 구축 및 응답 정확도 개선
실천 포인트
- Local LLM 도입 시 Native Jinja 템플릿의 제약 사항(메시지 순서 등) 사전 검토 - 에이전트 설계 시 모델의 추론 능력에 의존하지 말고 필요한 Context를 명시적으로 주입하는 전략 채택 - Speculative Decoding 적용 시 llama.cpp 버전 및 특정 옵션(tensor 등)의 호환성 검증 - Tool Call 실패 시 모델 성능보다 Chat Template 및 API Response 포맷 우선 확인