피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Hugging Face와 AWS가 협력하여 DeepSeek-R1 모델을 Inference Endpoints, Amazon Bedrock, SageMaker AI, EC2 Neuron 등 4가지 배포 방식으로 프로덕션 환경에 적용 가능하게 구성
How to deploy and fine-tune DeepSeek models on AWS
AI 요약
Context
OpenAI의 o1 모델이 추론 작업에서 성능 향상을 보였으나 그 방법론이 비공개 상태였다. DeepSeek-R1 모델이 오픈소스로 공개되면서 개발자들이 이를 AWS 환경에 배포하고 파인튜닝할 수 있는 표준화된 방법이 필요하게 되었다.
Technical Solution
- Hugging Face Inference Endpoints를 통한 배포: 관리형 인프라에서 6개의 증류 모델과 Unsloth의 양자화 버전을 클릭 몇 번으로 배포하며, 자동 스케일링과 규모별 요금 청구(예: 8.3$/시간) 제공
- Amazon Bedrock Marketplace 연동: DeepSeek 증류 모델을 마켓플레이스를 통해 등록하면 Amazon SageMaker AI 엔드포인트로 자동 배포
- Amazon SageMaker AI GPU 배포: Hugging Face LLM DLCs를 사용하여 JumpStart 콘솔 또는 Python SDK로 배포하며, 각 모델별 권장 인스턴스 타입 제시(예: 70B 모델은 ml.g6.48xlarge 8개 GPU)
- EC2 Neuron 배포: Hugging Face Neuron Deep Learning AMI 기반 inf2.48xlarge 인스턴스에서 Docker 컨테이너로 TGI 엔드포인트 실행, 12개 Neuron 디바이스 직접 할당 및 배치크기 4, 시퀀스 길이 4096 구성
- 파인튜닝 준비 중: SageMaker AI Hugging Face Training DLCs와 EC2 Neuron 환경에서의 파인튜닝 지원 예정
Key Takeaway
오픈소스 모델의 실제 프로덕션 배포는 클라우드 벤더의 인프라 최적화와 통합된 도구 지원이 필수이며, 동일 모델에 대해 관리형/GPU/Neuron 등 다층의 배포 옵션을 제공하면 개발자가 비용과 성능 요구사항에 따라 선택할 수 있다.
실천 포인트
DeepSeek 같은 대규모 오픈소스 모델을 AWS에서 운영해야 하는 팀은 인프라 복잡도와 비용을 고려하여 선택할 수 있다: 빠른 프로토타이핑은 Hugging Face Inference Endpoints(관리형), 기존 SageMaker 파이프라인 연계는 HF LLM DLCs(GPU), 추론 비용 최적화는 EC2 Neuron(전문화된 칩)을 각각 검토하되, 각 옵션별 권장 하드웨어 스펙과 배포 명령어가 문서화되어 있으므로 선택 후 즉시 실행 가능하다.