피드로 돌아가기
Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain
Dev.toDev.to
AI/ML

CLIP 파인튜닝 전략으로 건축 스타일 분류 정확도 26%p 향상

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Shiva Shrestha2026년 5월 12일8advanced

Context

특정 니치 도메인(건축 스타일)에서 OpenCLIP ViT-B/32의 Zero-shot 성능(61.4%)이 낮아 전문 검색 엔진 visquery.com의 백본으로 사용하기에 한계가 있음. 단순 학습 루프 최적화보다 도메인 특화 데이터 정제와 단계적 학습 전략이 필수적인 상황임.

Technical Solution

  • Base CLIP의 Zero-shot 분류기를 활용해 Confidence 0.05 미만의 샘플을 제거하는 데이터 퀄리티 게이트 구축
  • 텍스트 타워와 프로젝션 헤드를 우선 학습시켜 라벨 보카불러리와 시각적 특징을 정렬하는 1단계 학습 수행
  • 시각적 인코더의 마지막 두 Transformer Block(resblocks 10, 11)만 해제하여 사전 학습된 범용 표현력을 보존하는 2단계 학습 적용
  • 도메인 지식을 기반으로 식별한 혼동 가능 클래스(예: Gothic/Romanesque)를 대상으로 Hard-negative Batching 전략 구현
  • Validation Set의 NLL을 기준으로 Temperature Calibration을 수행하여 신뢰도 점수의 실제 정확도 일치화

- 학습 전 Pretrained 모델을 필터로 사용하여 데이터셋의 노이즈를 우선 제거했는가 - Visual Encoder 전체를 튜닝하기 전 Text Tower를 통한 정렬(Alignment) 과정을 거쳤는가 - 도메인 전문가의 분석을 통해 Hard-negative 샘플군을 정의하고 배치 전략에 반영했는가 - 배포 전 Temperature Calibration을 통해 Confidence Score의 신뢰성을 검증했는가

원문 읽기