단일 프로세스 내 Dynamic Model Switching 구현으로 Llama-Server 유연성 확보

Llama-Server Router Mode - Dynamic Model Switching Without Restarts

Rost2026년 4월 27일11분intermediate

AI 요약

Context

기존 llama.cpp 서버의 1프로세스 1모델 바인딩 제약으로 인한 모델 교체 시 프로세스 재시작 필수 구조. 이로 인한 요청별 모델 전환 오버헤드와 운영 효율성 저하 발생.

Technical Solution

모델 디스패처(Model Dispatcher) 개념 도입을 통한 정적 바인딩 구조 탈피
요청 필드의 model ID를 기반으로 메모리 적재 여부를 판단하는 Dynamic Loading 로직 구현
INI 설정 파일을 통한 모델별 Context Window, GPU Layer(ngl), Thread 수의 개별 최적화 정의
요청 처리 후 모델을 유지하거나 언로드하는 Warm-up 관리 메커니즘 적용
OpenAI 호환 API 인터페이스를 통한 클라이언트 측의 무중단 모델 전환 환경 제공

실천 포인트

- 단순 배포 및 개발 환경이라면 외부 의존성 없는 내장 Router Mode 적용 검토 - 프로덕션 수준의 모델 격리(Isolation)와 예측 가능한 Latency가 필요할 경우 llama-swap 기반의 프로세스 분리 구조 채택 - VRAM 한계 극복을 위해 모델별 ngl 값의 정밀한 튜닝 및 모니터링 수행

태그

#Llama-Server #VRAM Optimization #Inference Service #Dynamic Model Loading #Model Dispatcher

원문 읽기