피드로 돌아가기
Model Showdown Round 3: Ditching Ollama in Favor of llama.cpp
Dev.toDev.to
AI/ML

llama.cpp 직결을 통한 제어권 확보 및 Qwen 3.5 206.7 tok/s 달성

Model Showdown Round 3: Ditching Ollama in Favor of llama.cpp

Rob2026년 5월 10일15intermediate

Context

Ollama의 추상화 계층으로 인한 하이퍼파라미터 제어 제약 및 모델 업데이트 지연 발생. 벤치마크 결과가 모델 자체의 성능이 아닌 Ollama의 런타임 설정값에 종속되는 병목 지점 식별.

Technical Solution

  • Ollama 제거 후 llama-server 바이너리를 직접 사용하여 Zero-abstraction 제어 구조 설계
  • --reasoning-budget 8192 설정을 통한 추론 모델의 사고 공간 확보로 정답률 개선
  • Coder Agents 호환성을 위해 Jinja 템플릿 제약을 우회하는 --chat-template chatml 강제 적용
  • Blackwell 아키텍처(SM 120) 호환성 이슈를 -DCMAKE_CUDA_ARCHITECTURES=89 빌드 옵션으로 해결
  • MoE 모델(Qwen 3.5, Gemma 4) 채택을 통해 VRAM 효율성과 추론 성능의 Trade-off 최적화

Impact

  • Qwen 3.5 기준 peak throughput 206.7 tok/s 달성
  • Ollama blob store 제거를 통한 디스크 공간 44 GB 회수
  • 모델 교체 시간 3초 수준으로 단축
  • Qwen 3.5 가중치 합산 점수 85.3점으로 2위 대비 7.2점 격차 확보

Key Takeaway

추론 인프라 설계 시 추상화 계층의 편의성보다 세부 하이퍼파라미터 제어권(Direct Control)이 모델의 잠재 성능 도출에 결정적 영향 부여.


- 추론 모델 벤치마크 시 런타임 래퍼(Wrapper)의 기본 설정값이 결과에 영향을 주는지 검증 - Reasoning 모델 도입 시 추론 전용 토큰 예산을 고려하여 max_tokens 값을 2배 이상 확보 - 에이전트 워크플로우 설계 시 모델별 Chat Template 호환성을 확인하고 필요 시 표준 포맷(ChatML 등)으로 통일 - 최신 GPU 아키텍처 지원 미비 시 하위 호환 CUDA_ARCH를 통한 빌드 전략 검토

원문 읽기