Docker와 LiteLLM을 통한 Gemma 4 추론 환경의 표준화 및 API 추상화

Running Gemma 4 Inside a Docker Container with GPU Passthrough

Shreya Nalawade2026년 5월 18일20분intermediate

AI 요약

Context

ML 모델 배포 시 개별 개발자의 로컬 환경 의존성으로 인한 재현성 결여 문제 발생. 단순 GUI 도구 사용 시 버전 관리와 스테이징 환경으로의 이관이 불가능한 아키텍처적 한계 직면.

Technical Solution

Host의 NVIDIA Driver와 Container 내 CUDA Library를 분리하는 NVIDIA Container Toolkit 기반 GPU Passthrough 구조 설계
Ollama와 LiteLLM을 결합한 Multi-container Stack을 통해 LLM 엔진과 API 인터페이스 계층 분리
LiteLLM 프록시 도입을 통한 OpenAI API 규격 표준화로 Application 코드 수정 없는 모델 교체 구조 구현
별도의 model-puller 컨테이너를 통해 모델 다운로드 프로세스를 자동화하여 초기 부팅 시간 단축 및 설정 일관성 확보
Docker Compose 기반의 환경 정의를 통해 ML 인프라를 Application 코드와 동일한 PR 기반 버전 관리 체계로 통합

실천 포인트

- Host Driver 버전과 Container 내 CUDA 버전 간의 하위 호환성 검증(nvidia-smi 확인) - NVIDIA Container Toolkit 설치 후 Docker Daemon 재시작 여부 확인 - 모델 초기화 지연으로 인한 Healthcheck 실패 방지를 위해 start_period 설정값 조정(60s -> 120s) - Local LLM 도입 시 LiteLLM과 같은 API Gateway를 통해 모델 종속성 제거 및 인증/로그 계층 확보

태그

#GPU Passthrough #Ollama #LiteLLM #Docker Compose #CUDA

원문 읽기