피드로 돌아가기
Llama-Server Router Mode - Dynamic Model Switching Without Restarts
Dev.toDev.to
AI/ML

단일 프로세스 내 Dynamic Model Switching 구현으로 Llama-Server 유연성 확보

Llama-Server Router Mode - Dynamic Model Switching Without Restarts

Rost2026년 4월 27일11intermediate

Context

기존 llama.cpp 서버의 1프로세스 1모델 바인딩 제약으로 인한 모델 교체 시 프로세스 재시작 필수 구조. 이로 인한 요청별 모델 전환 오버헤드와 운영 효율성 저하 발생.

Technical Solution

  • 모델 디스패처(Model Dispatcher) 개념 도입을 통한 정적 바인딩 구조 탈피
  • 요청 필드의 model ID를 기반으로 메모리 적재 여부를 판단하는 Dynamic Loading 로직 구현
  • INI 설정 파일을 통한 모델별 Context Window, GPU Layer(ngl), Thread 수의 개별 최적화 정의
  • 요청 처리 후 모델을 유지하거나 언로드하는 Warm-up 관리 메커니즘 적용
  • OpenAI 호환 API 인터페이스를 통한 클라이언트 측의 무중단 모델 전환 환경 제공

- 단순 배포 및 개발 환경이라면 외부 의존성 없는 내장 Router Mode 적용 검토 - 프로덕션 수준의 모델 격리(Isolation)와 예측 가능한 Latency가 필요할 경우 llama-swap 기반의 프로세스 분리 구조 채택 - VRAM 한계 극복을 위해 모델별 ngl 값의 정밀한 튜닝 및 모니터링 수행

원문 읽기