Hugging Face가 Pivotal Tuning과 Prodigy 옵티마이저를 결합한 SDXL Dreambooth LoRA 학습 스크립트 개발으로 소수의 이미지만으로 고품질 개념 학습 달성

LoRA training scripts of the world, unite!

2024년 1월 2일12분intermediate

AI 요약

Context

기존 Dreambooth LoRA 학습에서는 기존 토큰의 의미를 재사용하기 때문에 원하지 않는 의미 간섭이 발생할 수 있었다. 예를 들어 인기 있는 'sks' 토큰은 실제로 무기 브랜드와 연관되어 학습 결과에 영향을 미쳤다.

Technical Solution

Pivotal Tuning 기법 도입: 기존 토큰 대신 새로운 토큰을 텍스트 인코더에 삽입하고 그 임베딩만 최적화하여 의미 간섭 제거
토큰 추상화 메커니즘 구현: 'TOK' 같은 플레이스홀더를 학습 시작 시 새로운 토큰( 등)으로 자동 치환
적응형 최적화 전략 적용: Prodigy 옵티마이저를 Kohya 트레이너에서 채택하여 학습 수렴 최적화
반반 피벗팅 전략 도입: 학습 에포크의 전반부는 텍스트 임베딩 학습(Textual Inversion)을 수행하고 후반부는 UNet만 최적화
텍스트 인코더 가중치 감쇠 분리: 텍스트 인코더 파라미터와 UNet 파라미터에 서로 다른 가중치 감쇠값 적용
다중 형식 호환성 확보: diffusers, Automatic1111 WebUI, ComfyUI 형식의 LoRA 및 임베딩 파일 동시 생성

Key Takeaway

새로운 토큰 삽입과 적응형 옵티마이저 결합을 통해 SDXL Dreambooth LoRA 학습의 의미 간섭을 제거하면서 수렴 효율성을 개선할 수 있으며, 다양한 추론 프레임워크와의 호환성 제공이 커뮤니티 도입을 가속화한다.

실천 포인트

Stable Diffusion XL 기반의 커스텀 개념 학습이 필요한 환경에서 Pivotal Tuning(새 토큰 삽입 + 반반 피벗팅)과 Prodigy 옵티마이저를 함께 적용하면, 기존 토큰의 의미 간섭을 제거하면서도 소수의 이미지(수십 개)로 고품질의 LoRA를 학습할 수 있다.

태그

#Dreambooth #Fine-Tuning #SDXL #Textual Inversion #LoRA

원문 읽기