피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Meta와 Google Cloud가 Llama 3.1 405B를 Vertex AI + A3 머신(8×H100 GPU)에 FP8 양자화로 배포하는 엔드투엔드 가이드 제시
Deploy Meta Llama 3.1 405B on Google Cloud Vertex AI
AI 요약
Context
Meta Llama 3.1 405B는 128K 토큰 컨텍스트 길이와 다국어 지원을 제공하지만, FP16 정밀도에서 810GB의 GPU VRAM을 필요로 한다. 단일 H100 노드(640GB 총 VRAM)로는 부족하기 때문에 멀티노드 설정이나 낮은 정밀도 양자화가 필수다.
Technical Solution
- Meta Llama 3.1 405B 모델을 FP8 양자화 변형으로 변환: 메모리 요구사항을 810GB에서 405GB로 감소
- Google Cloud A3 가속기 최적화 머신 배포: 8개의 H100 80GB GPU, 208 vCPU, 1872GB 메모리로 총 640GB VRAM 확보
- Hugging Face Deep Learning Containers(DLCs) + Text Generation Inference(TGI) 스택 활용: 사전 구성된 추론 컨테이너로 배포
- Vertex AI Model Registry에 모델 등록: gcloud CLI를 통한 프로그래매틱 등록 및 Google Cloud Console UI 지원
- Vertex AI Online Prediction 엔드포인트 배포: Python SDK 또는 Console에서 실시간 추론 가능
- 리소스 정리 자동화: undeploy_all(), delete() 메서드로 비용 절감
Impact
본 아티클은 정량적 성능 수치(처리량, 지연시간, 비용 절감 수치)를 제공하지 않는다.
Key Takeaway
대규모 LLM 배포 시 하드웨어 메모리 제약을 FP8 양자화 + 고사양 가속기 조합으로 해결할 수 있으며, Hugging Face DLC와 Vertex AI의 통합으로 코드 작성 없이도 프로덕션 추론 인프라를 구성할 수 있다.
실천 포인트
Google Cloud를 사용하는 ML 엔지니어가 405B급 대규모 LLM을 운영해야 할 때, FP8 양자화된 모델 변형을 선택하고 A3 머신에 Vertex AI + Hugging Face DLC 스택으로 배포하면 단일 머신에서 실시간 추론 엔드포인트를 구축할 수 있다.