Hugging Face가 PyTorch FSDP와 meta device를 활용한 단계별 모델 로딩으로 Llama 2 70B 파인튜닝 시 CPU RAM 사용량을 2TB에서 1.5GB 수준으로 감소
Fine-tuning Llama 2 70B using PyTorch FSDP
Fine-tuning Llama 2 70B using PyTorch FSDP
Accelerate Large Model Training using PyTorch Fully Sharded Data Parallel