rinna Co., Ltd.가 Stable Diffusion을 일본 캡션 이미지 100억 장으로 파인튜닝해 일본 문화와 슬랭을 이해하는 텍스트-이미지 모델 구축

Japanese Stable Diffusion

2022년 10월 5일10분intermediate

AI 요약

Context

원본 Stable Diffusion은 영어 데이터셋(LAION2B-en)으로 학습되어 일본어 프롬프트를 영어로 번역해야 하며, 일본 문화 고유의 표현(샐러리맨, 의성어, 고유명사)을 올바르게 이해하지 못한다. 비영어권 데이터셋이 영어 데이터셋의 1/20 규모이므로 언어별 특화 모델 개발이 필수적이다.

Technical Solution

텍스트 인코더 교체: CLIP 토크나이저 대신 일본어 SentencePiece 토크나이저 적용으로 토큰 수 감소 및 의존성 학습 개선
2단계 학습 전략 도입: 1단계에서 잠재 확산 모델(Latent Diffusion Model) 고정 후 일본어 특화 텍스트 인코더만 학습
2단계에서 텍스트 인코더와 잠재 확산 모델을 함께 미세조정(Fine-tuning)
데이터 전처리: japanese-cloob-vit-b-16으로 점수 임계값 이하 저품질 샘플 제거
학습 데이터: LAION-5B 일본어 부분집합 포함 약 100억 개 일본어 캡션 이미지 사용

Key Takeaway

소규모 비영어권 데이터셋의 제약에서 사전학습된 강력한 모델을 기반으로 단계적 파인튜닝을 수행하면 언어별 특화 모델의 정확도를 확보할 수 있다. 다국어 AI 접근성을 위해서는 각 언어 문화에 최적화된 토크나이저 설계가 필수 요소이다.

실천 포인트

다중언어 텍스트-이미지 모델을 개발하는 팀에서 소규모 타겟 언어 데이터셋의 한계를 극복할 때, 사전학습된 멀티모달 모델의 특정 컴포넌트(텍스트 인코더)만 교체하고 2단계 파인튜닝을 적용하면, 언어 고유의 문화적 뉘앙스를 포착하면서도 학습 효율을 높일 수 있다.

태그

#Fine-Tuning #Stable Diffusion #Localization #Text-to-Image #Japanese NLP

원문 읽기