llama.cpp 직결을 통한 제어권 확보 및 Qwen 3.5 206.7 tok/s 달성

Model Showdown Round 3: Ditching Ollama in Favor of llama.cpp

Rob2026년 5월 10일15분intermediate

AI 요약

Context

Ollama의 추상화 계층으로 인한 하이퍼파라미터 제어 제약 및 모델 업데이트 지연 발생. 벤치마크 결과가 모델 자체의 성능이 아닌 Ollama의 런타임 설정값에 종속되는 병목 지점 식별.

Technical Solution

Ollama 제거 후 llama-server 바이너리를 직접 사용하여 Zero-abstraction 제어 구조 설계
--reasoning-budget 8192 설정을 통한 추론 모델의 사고 공간 확보로 정답률 개선
Coder Agents 호환성을 위해 Jinja 템플릿 제약을 우회하는 --chat-template chatml 강제 적용
Blackwell 아키텍처(SM 120) 호환성 이슈를 -DCMAKE_CUDA_ARCHITECTURES=89 빌드 옵션으로 해결
MoE 모델(Qwen 3.5, Gemma 4) 채택을 통해 VRAM 효율성과 추론 성능의 Trade-off 최적화

Impact

Qwen 3.5 기준 peak throughput 206.7 tok/s 달성
Ollama blob store 제거를 통한 디스크 공간 44 GB 회수
모델 교체 시간 3초 수준으로 단축
Qwen 3.5 가중치 합산 점수 85.3점으로 2위 대비 7.2점 격차 확보

Key Takeaway

추론 인프라 설계 시 추상화 계층의 편의성보다 세부 하이퍼파라미터 제어권(Direct Control)이 모델의 잠재 성능 도출에 결정적 영향 부여.

실천 포인트

- 추론 모델 벤치마크 시 런타임 래퍼(Wrapper)의 기본 설정값이 결과에 영향을 주는지 검증 - Reasoning 모델 도입 시 추론 전용 토큰 예산을 고려하여 max_tokens 값을 2배 이상 확보 - 에이전트 워크플로우 설계 시 모델별 Chat Template 호환성을 확인하고 필요 시 표준 포맷(ChatML 등)으로 통일 - 최신 GPU 아키텍처 지원 미비 시 하위 호환 CUDA_ARCH를 통한 빌드 전략 검토

태그

#MoE #GGUF #llama.cpp #CUDA #Inference Optimization

원문 읽기