피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Azure Container Apps 기반 Ollama 구축으로 비용 75% 절감 및 배포 최적화
Running Ollama on Azure Container Apps
AI 요약
Context
Self-hosted LLM 운영 시 발생하는 높은 GPU 비용과 Cold Start 시의 모델 재다운로드 지연 문제가 병목으로 작용. 특히 Ephemeral Storage 사용 시 컨테이너 재시작마다 수 GB의 모델 가중치를 다시 로드해야 하는 비효율성 존재.
Technical Solution
- OpenAI-compatible API 제공하는 Ollama 채택을 통한 SDK 변경 없는 백엔드 교체 가능 구조 설계
- Internal Ingress 설정을 통한 Public 노출 차단 및 내부 네트워크 보안 강화
- Scale-to-zero 전략을 통한 유휴 시간 비용 제거 및 리소스 효율 극대화
- Azure Files Share 마운트로 모델 가중치 영속성을 확보하여 Cold Start 시간 단축
- Pre-baked Image 방식을 통한 런타임 다운로드 제거 및 결정론적 배포 환경 구축
- 워크로드 특성에 따른 CPU 우선 배치 후 성능 측정 기반의 GPU 업그레이드 전략 적용
실천 포인트
1. LLM 서빙 시 무조건적인 GPU 할당 대신 CPU 기반 성능 측정 선행
2. 모델 가중치 저장소로 Azure Files 등 네트워크 스토리지를 연결하여 Cold Start 지연 방지
3. 보안을 위해 Internal Ingress를 기본으로 설정하고 인증 계층을 먼저 구축
4. 런타임 다운로드를 피하기 위해 모델이 포함된 커스텀 이미지를 빌드하여 배포