TWIML 커뮤니티 팀이 OpenAI의 CLIP 모델을 RSICD 위성 이미지 데이터셋으로 파인튜닝해 텍스트 기반 위성 이미지 검색 서비스 구축

Fine tuning CLIP with Remote Sensing (Satellite) images and captions

2021년 10월 13일12분intermediate

AI 요약

Context

기존 CLIP 모델은 인터넷 이미지를 기반으로 학습되어 위성 이미지처럼 특수한 도메인의 이미지에 대해서는 성능이 제한적이었다. 일상적 이미지와 위성 이미지는 시각적 특성이 충분히 다르기 때문에 도메인 특화 모델의 필요성이 있었다.

Technical Solution

CLIP 모델 파인튜닝: OpenAI CLIP 모델을 RSICD 데이터셋(약 10,000개 이미지, 이미지당 5개 캡션)으로 파인튜닝 → 위성 이미지와 텍스트의 결합 임베딩 학습
추가 학습 데이터셋 확보: RSICD 외 UCM 데이터셋(2,100개 이미지, 21개 클래스) 및 Sydney 데이터셋(613개 이미지, 7개 클래스) 통합 학습
데이터 증강 적용: Torchvision의 Random Cropping, Random Resizing and Cropping, Color Jitter, Random Horizontal/Vertical Flipping 수행 → 과적합 방지
대비 학습 구조 유지: 이미지와 캡션 쌍을 각각 텍스트 인코더와 이미지 인코더에 입력 → 임베딩 공간에서 일치 이미지-캡션은 근접 배치, 불일치 쌍은 거리 확대
추론 파이프라인 구성: NMSLib 인덱스를 사용해 RSICD 테스트셋의 이미지를 인코딩하고 저장 → 텍스트/이미지 쿼리에 대한 근사 최근접 이웃 검색 제공
패치 기반 기능 탐지: 들어오는 이미지를 패치로 분할 후 인코딩 → 텍스트 쿼리와 각 패치의 임베딩 벡터 매칭으로 이미지 내 특정 기능의 위치 확률 반환

Impact

평가 결과가 파인튜닝의 정확성을 입증했으나, 아티클에서 정량적 성능 지표(정확도 %, 검색 정밀도 등)는 명시되지 않음.

Key Takeaway

도메인 특화 이미지(위성, 의료 등) 검색 및 분류 작업에서 기존 대규모 모델의 파인튜닝은 제로샷 성능보다 우수한 결과를 제공하며, 텍스트-이미지 결합 임베딩 모델을 다양한 도메인에 적응시킬 수 있음을 보여준다.

실천 포인트

특수 도메인 이미지 검색 시스템을 구축해야 하는 팀에서는 CLIP과 같은 사전학습 멀티모달 모델을 도메인 특화 이미지-캡션 쌍 데이터셋으로 파인튜닝한 뒤, NMSLib 같은 벡터 인덱싱 라이브러리로 임베딩을 저장하면 텍스트 쿼리 기반의 대규모 이미지 검색 서비스를 구현할 수 있다.

태그

#Fine-Tuning #Remote Sensing #CLIP #MultiModal #Vector Search

원문 읽기