Hugging Face가 Latent Consistency LoRA를 도입해 SDXL 이미지 생성 단계를 4단계로 축소하고 추론 시간을 M1 Mac에서 60초에서 6초로, 4090에서 7초에서 1초 미만으로 단축

SDXL in 4 steps with Latent Consistency LoRAs

2023년 11월 9일10분intermediate

AI 요약

Context

Stable Diffusion과 SDXL은 고품질 이미지 생성을 위해 25~50단계의 추론 과정이 필요하며, 이는 실시간 애플리케이션 적용과 접근성을 제한하는 병목이 되고 있다.

Technical Solution

Latent Consistency Models(LCM) 개념을 LoRA 기법과 결합: 전체 모델을 재학습하지 않고 소수의 LoRA 어댑터만 학습하는 경량 방식 도입
LoRA 가중치를 SDXL 기본 모델의 모든 미세 조정 버전에 적용 가능하게 설계: 각 변형 모델마다 별도 증류 불필요
LCMScheduler로 스케줄러 교체: diffusers 파이프라인에서 기존 스케줄러를 LCMScheduler로 변경하는 3단계 코드 수정으로 적용
4~8단계의 추론 프로세스로 단축: guidance_scale을 1로 설정하여 음성 프롬프트 미지원 대신 최고 속도 달성
Performance-Efficient Fine-Tuning(PEFT) 메커니즘 활용: 전체 모델 학습 대비 극히 저비용 리소스로 LoRA 학습 수행

Impact

M1 Mac에서 1024x1024 이미지 생성: 60초 → 6초 (10배 단축)
RTX 4090에서 SDXL 추론: 7초 → 1초 미만 (7배 이상 단축)
단일 이미지 생성 단계: 4단계 사용 시 품질 만족도 도달, 1단계 생성은 텍스처 부족하지만 4~6단계에서 실용적 수준 달성

Key Takeaway

증류 모델의 장점을 어댑터 기반 기법으로 재현한 사례로서, 전체 모델 재학습 비용을 피하면서도 기존 모델의 모든 변형에 일괄 적용 가능한 LoRA 방식이 오픈소스 커뮤니티의 확산을 크게 가속화할 수 있음을 보여준다.

실천 포인트

SDXL을 기반으로 하는 생성형 AI 서비스에서 latent consistency LoRA를 적용하면, diffusers 라이브러리의 3줄 코드 수정(load_lora_weights + LCMScheduler 교체)만으로 추론 시간을 10배 단축할 수 있어 CPU 기반 프로덕션 워크로드와 실시간 인터랙티브 애플리케이션 구현이 가능해진다.

태그

#Latent Consistency Models #image-generation #Model Distillation #Stable Diffusion #LoRA

원문 읽기