Hugging Face 연구팀이 InstructPix2Pix의 학습 방식에 FLAN V2의 instruction-tuning 개념을 결합하여 Stable Diffusion이 카르툰화·이미지 디레이닝 같은 특정 이미지 변환 작업을 명령어 기반으로 수행하도록 fine-tuning

Instruction-tuning Stable Diffusion with InstructPix2Pix

2023년 5월 23일10분intermediate

AI 요약

Context

기존 InstructPix2Pix 모델은 일반적인 이미지 편집 명령어는 따르지만 카르툰화, 이미지 디노이징, 이미지 디레이닝 같은 특정 변환 작업에서는 만족스러운 결과를 생성하지 못했다. 추론 시점의 하이퍼파라미터 튜닝(이미지 가이던스 스케일, 추론 스텝 수 등)으로도 성능 개선이 제한적이었다.

Technical Solution

Stable Diffusion의 instruction-tuning 데이터셋 구축: ChatGPT로 50개의 동의어 문장 생성(예: "Cartoonize the image") 후 Imagenette 데이터셋의 5,000개 샘플에 적용
라벨 생성 파이프라인 설계: Whitebox CartoonGAN 모델로 원본 이미지의 카르툰화된 렌더링을 생성하여 학습 쌍(pair)으로 구성
InstructPix2Pix 학습 방식 + instruction-prompted 데이터셋 결합: FLAN V2의 task-specific instruction 템플릿 철학을 이미지 변환 도메인에 이식
데이터셋 포맷 구성: (입력 이미지, 명령어 텍스트, 라벨 이미지) 삼중쌍 형식으로 학습 예제 구성
카르툰화 외 저수준 이미지 처리 확장: 동일한 데이터셋 준비 방식을 이미지 디레이닝, 이미지 디노이징 등에 적용 가능하도록 설계

Key Takeaway

특정 도메인의 이미지 변환 작업에서는 사전학습된 범용 모델보다 해당 작업에 대한 paired 데이터셋을 이용한 instruction-tuning이 필수적이다. 기존 모델의 바이어스를 task-specific fine-tuning으로 전이하는 방식이 더 안정적인 성능 개선을 가져온다.

실천 포인트

Stable Diffusion 기반의 이미지 처리 파이프라인을 구축할 때 단순한 텍스트 프롬프트보다는 특정 작업(카르툰화, 디레이닝 등)에 맞춘 instruction-tuning을 수행하되, 먼저 대규모 언어모델(ChatGPT)로 명령어의 동의어 표현을 생성하고 도메인 특화 모델로 라벨을 자동생성하는 파이프라인을 구축하면 고품질 fine-tuning 데이터셋을 효율적으로 확보할 수 있다.

태그

#InstructPix2Pix #Image Translation #Stable Diffusion #Diffusion Models #Instruction-tuning

원문 읽기