Hugging Face가 CLIPSeg 모델을 Transformers 라이브러리에 통합해 사전 학습 없이 임의의 객체를 세그멘테이션하는 제로샷 이미지 분할 기능 제공

Zero-shot image segmentation with CLIPSeg

2022년 12월 21일9분intermediate

AI 요약

Context

기존 이미지 세그멘테이션 모델은 고정된 카테고리만 처리 가능하며, 새로운 객체를 분할하려면 해당 데이터를 수집하고 모델을 재학습해야 하므로 비용과 시간이 많이 소요된다. 현대 카메라의 고해상도 이미지를 처리할 때 픽셀 완벽도가 필요한 경우 세그멘테이션 정확도가 부족하다.

Technical Solution

CLIP 모델의 고정된 멀티모달 임베딩을 활용해 텍스트 또는 이미지 프롬프트 기반 제로샷 분할 수행
Transformer 기반 디코더를 CLIP 위에 추가하되 CLIP의 모든 레이어를 동결시켜 기존 표현 활용
PhraseCut 데이터셋(340,000개 이상의 구절-세그멘테이션 마스크 쌍)과 데이터 확대 기법으로 디코더 학습해 보지 못한 카테고리로의 일반화 달성
352×352 픽셀 해상도의 예비 세그멘테이션 마스크 생성 후 Segments.ai 같은 라벨링 도구에서 수동 정정
Hugging Face Transformers 라이브러리에서 제공되는 API로 CLIPSeg를 로봇 인지, 이미지 인페인팅 등 다양한 작업에 즉시 적용

Key Takeaway

사전 학습된 멀티모달 모델(CLIP)의 표현을 고정하고 소규모 디코더만 학습하면 새로운 도메인에서 제로샷 능력을 달성할 수 있으며, 낮은 해상도의 예비 결과물을 수동 개선 워크플로우와 결합하면 고정밀도 세그멘테이션 데이터셋을 효율적으로 구축할 수 있다.

실천 포인트

컴퓨터 비전 애플리케이션을 개발하는 엔지니어는 CLIPSeg를 통해 새로운 객체 카테고리마다 별도의 라벨 작업 없이 텍스트 또는 이미지 쿼리만으로 초기 세그멘테이션을 생성할 수 있으며, 정밀도가 중요한 경우 CLIPSeg의 352×352 예비 결과를 수동으로 정정한 후 상태 최신 모델(예: SegFormer)을 재학습해 운영 환경 수준의 정확도를 달성할 수 있다.

태그

#CLIPSeg #Transformers #CLIP #Zero-shot segmentation #Image Segmentation

원문 읽기