피드로 돌아가기
Running Ollama on Azure Container Apps
Dev.toDev.to
Infrastructure

Azure Container Apps 기반 Ollama 구축으로 비용 75% 절감 및 배포 최적화

Running Ollama on Azure Container Apps

Brian Spann2026년 4월 19일10intermediate

Context

Self-hosted LLM 운영 시 발생하는 높은 GPU 비용과 Cold Start 시의 모델 재다운로드 지연 문제가 병목으로 작용. 특히 Ephemeral Storage 사용 시 컨테이너 재시작마다 수 GB의 모델 가중치를 다시 로드해야 하는 비효율성 존재.

Technical Solution

  • OpenAI-compatible API 제공하는 Ollama 채택을 통한 SDK 변경 없는 백엔드 교체 가능 구조 설계
  • Internal Ingress 설정을 통한 Public 노출 차단 및 내부 네트워크 보안 강화
  • Scale-to-zero 전략을 통한 유휴 시간 비용 제거 및 리소스 효율 극대화
  • Azure Files Share 마운트로 모델 가중치 영속성을 확보하여 Cold Start 시간 단축
  • Pre-baked Image 방식을 통한 런타임 다운로드 제거 및 결정론적 배포 환경 구축
  • 워크로드 특성에 따른 CPU 우선 배치 후 성능 측정 기반의 GPU 업그레이드 전략 적용

1. LLM 서빙 시 무조건적인 GPU 할당 대신 CPU 기반 성능 측정 선행

2. 모델 가중치 저장소로 Azure Files 등 네트워크 스토리지를 연결하여 Cold Start 지연 방지

3. 보안을 위해 Internal Ingress를 기본으로 설정하고 인증 계층을 먼저 구축

4. 런타임 다운로드를 피하기 위해 모델이 포함된 커스텀 이미지를 빌드하여 배포

원문 읽기