Diffusers 팀이 T2I-Adapter를 SDXL에 통합해 ControlNet 대비 파라미터 93.69% 감소(1251M → 79M) 및 매 디노이징 스텝마다 1회만 실행으로 추론 속도 향상

Efficient Controllable Generation for SDXL with T2I-Adapters

2023년 9월 8일8분intermediate

AI 요약

Context

ControlNet은 텍스트-이미지 생성 모델에 추가적인 제어 신호를 제공하지만, 각 디노이징 단계마다 ControlNet과 UNet을 모두 실행해야 하므로 계산 비용이 높다. ControlNet은 UNet 인코더를 복사하는 방식으로 설계되어 파라미터 수가 크고, 모델 크기가 커질수록 생성 속도가 저하된다.

Technical Solution

T2I-Adapter를 SDXL 기반으로 재설계: 기존 SD-1.4/1.5용 T2I-Adapter와 동일한 설계 원칙을 적용하되 2.6B 파라미터의 SDXL을 79M 어댑터로 제어
어댑터 실행 최소화: 전체 디노이징 프로세스에서 T2I-Adapter를 1회만 실행하도록 구조화 (ControlNet은 매 스텝마다 실행)
다중 조건 어댑터 학습: Sketch, Canny, Lineart, Depth, OpenPose 등 5가지 조건에 대해 별도 어댑터 모델 학습
훈련 파이프라인 표준화: 3M개의 고해상도 이미지-텍스트 쌍(LAION-Aesthetics V2)으로 20,000~35,000 스텝 학습, 배치 크기 128, 학습률 1e-5 고정, fp16 혼합 정밀도 사용
제어 강도 조절 파라미터 제공: adapter_conditioning_scale(제어 영향력 강도)과 adapter_conditioning_factor(제어 적용 단계 비율)로 세밀한 제어 제공

Impact

모델 파라미터: 1251M → 79M (93.69% 감소)
저장 용량(fp16): 2.5GB → 158MB (94% 감소)
ControlLoRA 대비 추가 감소: 197.78M 대비 79M (60% 더 소형)

Key Takeaway

대규모 생성 모델에 제어 기능을 추가할 때, 전체 프로세스에서 어댑터를 최소 횟수로 실행하는 설계와 초기 학습 파이프라인을 재사용하면 파라미터 규모를 대폭 줄이면서도 고품질 출력을 유지할 수 있다.

실천 포인트

텍스트-이미지 생성 애플리케이션에서 Sketch, Depth, Pose 등 다양한 조건 제어가 필요한 경우, T2I-Adapter-SDXL의 adapter_conditioning_scale과 adapter_conditioning_factor 파라미터를 조정하면 전산 비용을 최소화하면서도 생성 품질과 제어 정밀도를 동시에 확보할 수 있다.

태그

#Model optimization #ControlNet #Text-to-Image #SDXL

원문 읽기