Hugging Face Diffusers가 Stable Diffusion 3.5 Large 모델을 지원하면서 QK normalization과 dual attention layers 추가로 이미지 생성 품질 향상

Diffusers welcomes Stable Diffusion 3.5 Large

2024년 10월 22일9분intermediate

AI 요약

Context

Stable Diffusion 3 Medium의 후속 모델인 Stable Diffusion 3.5 Large는 더 큰 파라미터 규모(8B)를 지닌 모델로, 기존 모델 대비 개선된 이미지 생성 품질을 제공해야 했다.

QK normalization 도입: 대규모 Transformer 모델 학습 표준으로 QK normalization을 SD3.5 Large 아키텍처에 적용
Dual attention layers 구현: MMDiT 블록에서 단일 attention 레이어 대신 이중 attention 레이어 사용
bitsandbytes 4-bit 양자화 지원: NF4 정밀도로 변환하여 메모리 최적화 및 24GB VRAM GPU에서 추론 가능 구현
Timestep-distilled 모델 제공: classifier-free guidance를 제거하여 4-8 단계로 이미지 생성 가능
LoRA 파인튜닝 지원: peft 라이브러리와 bitsandbytes 활용하여 양자화된 모델에서 학습 가능하도록 구현
Single-file 로딩 메서드 지원: 원본 Stability AI 체크포인트를 from_single_file 메서드로 직접 로드 가능

타임스텝 증축 모델로 4-8 단계만으로 이미지 생성 가능하며, 4-bit 양자화 사용 시 메모리 오버헤드 감소로 24GB VRAM에서 추론 및 학습 가능.

대규모 생성 모델을 소비자 GPU에서 실행 가능하도록 하려면 양자화와 증축(distillation) 기법을 조합하여 메모리와 연산량 양쪽 트레이드오프를 동시에 해결해야 한다.

실천 포인트

이미지 생성 서비스에서 Stable Diffusion

3.5 Large를 배포할 때, bitsandbytes의 NF4 양자화를 적용하면 24GB VRAM 환경에서도 모델 추론을 실행할 수 있고, timestep-distilled 모델을 선택하면 추론 단계를 4-8단계로 단축하여 응답 시간을 크게 줄일 수 있다.

태그