데이터 45배 증가에도 성능 저하된 LoRA의 정체성 붕괴 해결 및 재설계

[Day 5] My Cat-LoRA Got Worse With 45x More Photos. So I Figured Out Why and Fixed It.

PEPPERCORN2026년 5월 11일14분intermediate

AI 요약

Context

소량의 고품질 데이터(22장)로 학습한 v1 LoRA 대비, CLIP 분류기로 추출한 대량의 데이터(999장)를 사용한 v2에서 오히려 대상의 정체성(Identity) 유지 능력이 저하되는 현상 발생. 단순히 데이터 양을 늘리는 것이 모델의 특성 추출 성능 향상으로 이어지지 않는 한계점 노출.

Technical Solution

CLIP Image Similarity 기반의 데이터 정제: 타겟 대상이 아닌 불순물 데이터(Other cats)를 제거하여 학습 셋의 순도를 높인 v3 구조 설계
VLM(Qwen2-VL) 기반의 Context 분리 캡셔닝: 정체성(ohwx cat)과 배경/상황(Context)을 명확히 분리하여 모델이 개별 특성만 학습하도록 유도
Appearance Description 배제 전략: 캡션에서 외형 묘사를 삭제함으로써 모델이 트리거 워드에 정체성 정보를 강제 매핑하도록 설계
정량적 스텝 수 동기화: 학습 횟수를 v1과 유사하게 유지하여 데이터 양과 캡션 스타일의 영향력만을 정밀하게 비교 분석

실천 포인트

- LoRA 학습 시 데이터 양보다 데이터의 순도(Purity)와 정체성 일관성을 우선 검토할 것 - 트리거 워드 외의 배경 정보를 상세히 캡셔닝하여 모델이 정체성과 배경을 분리해 학습하도록 설계할 것 - CLIP Embedding 기반의 코사인 유사도 분석을 통해 학습 데이터셋의 노이즈를 정량적으로 제거할 것

태그

#CLIP #VLM #Stable Diffusion #Dataset Purification #LoRA

원문 읽기