Hugging Face와 Intel이 Sapphire Rapids CPU의 AMX 하드웨어 가속기를 활용해 GPU 없이 Stable Diffusion 모델을 분산 fine-tuning하는 방법 구현

Fine-tuning Stable Diffusion models on Intel CPUs

2023년 7월 14일10분intermediate

AI 요약

Context

Stable Diffusion 모델의 fine-tuning은 기존에 GPU 인프라에서만 가능했으며, 엔터프라이즈급 컨텐츠 생성이나 합성 데이터 생성 용도로 확장하려면 GPU 서버 구축의 비용 및 가용성 제약이 있었다.

Technical Solution

Intel Sapphire Rapids CPU 클러스터 구성: 4개 서버, 각 서버 2개 CPU(56코어/112스레드), 총 224 CPU 활용
Textual Inversion 기법 도입: 5개 샘플 이미지만 사용해 Stable Diffusion 모델 fine-tuning
Intel Extension for PyTorch(IPEX) 통합: U-Net과 Variational Auto Encoder 모델에 IPEX 최적화 적용
oneCCL 라이브러리 배포: 분산 학습 노드 간 통신 관리
Optimum Intel과 OpenVINO 활용: Fine-tuning된 모델을 정적 모양으로 최적화해 단일 CPU 추론 가속

Impact

단일 CPU에서 이미지 생성 시간을 5초 이내로 달성
5개 샘플 이미지로 모델이 특정 객체(예: dicoo) 특징 학습 가능 증명
3,000 스텝 학습 시 약 1시간의 학습 시간

Key Takeaway

GPU보다 저렴하고 광범위하게 확보 가능한 Xeon CPU 서버에서 Intel AMX 하드웨어 가속기와 IPEX/OpenVINO 최적화 스택을 조합하면, 엔터프라이즈 이미지 생성 워크로드를 비용 효율적으로 운영할 수 있으며 동시에 웹 서버, 데이터베이스 등 다른 프로덕션 태스크로 인프라를 유연하게 전환 가능하다.

실천 포인트

생성형 AI 기반 컨텐츠 생성 또는 합성 데이터 생성 파이프라인을 구축하는 엔터프라이즈에서 GPU 구매 대신 Intel Sapphire Rapids CPU 서버를 도입하고, IPEX와 OpenVINO로 모델을 최적화하면 초기 인프라 비용을 절감하면서도 textual inversion 같은 경량 fine-tuning 기법으로 도메인 특화 모델을 빠르게 구축할 수 있다.

태그

#Distributed Training #Fine-Tuning #Stable Diffusion #AMX #Intel Sapphire Rapids

원문 읽기