Hugging Face가 Mask2Former와 OneFormer 모델을 Transformers 라이브러리에 추가해 단일 아키텍처로 인스턴스·의미·파놉틱 세그먼테이션 작업 통합 지원

Universal Image Segmentation with Mask2Former and OneFormer

2023년 1월 19일6분intermediate

AI 요약

Context

기존에는 인스턴스 세그먼테이션, 의미 세그먼테이션, 파놉틱 세그먼테이션이 서로 다른 아키텍처와 학습 패러다임으로 각각 구현되었다. 인스턴스와 파놉틱 세그먼테이션은 이진 마스크 분류 방식을 사용했고, 의미 세그먼테이션은 픽셀 단위 분류 방식을 사용해 접근 방식이 달랐다.

Technical Solution

DETR 모델부터 시작해 Transformer 디코더가 병렬 방식으로 이진 마스크와 클래스를 생성하는 이진 마스크 분류 패러다임으로 통합
Mask2Former는 백본(ResNet 또는 Swin Transformer) → 픽셀 디코더 → Transformer 디코더 구조로 구성해 쿼리 기반 마스크 예측 수행
OneFormer는 텍스트 인코더를 추가해 "instance", "semantic", "panoptic" 텍스트 프롬프트 입력으로 조건화해 단일 파놉틱 데이터셋 학습으로 세 가지 작업 모두 SOTA 성능 달성
Mask2Former는 각 작업별로 별도 학습 필요하며 OneFormer는 추가 텍스트 인코더로 인한 레이턴시 증가
MaskFormerForInstanceSegmentation 대신 Mask2FormerForUniversalSegmentation 또는 OneFormerForUniversalSegmentation 클래스 사용으로 마이그레이션

Impact

OneFormer가 Mask2Former보다 더 높은 정확도를 달성하나 추가 텍스트 인코더로 인한 레이턴시 증가 트레이드오프 발생.

Key Takeaway

이진 마스크 분류 패러다임을 모든 세그먼테이션 작업에 통합 적용함으로써 별도의 아키텍처 구현 없이 단일 모델로 인스턴스·의미·파놉틱 세그먼테이션을 해결할 수 있음을 보여준다. 특히 OneFormer의 텍스트 조건화 방식은 데이터셋 학습 효율성과 모델 범용성의 새로운 가능성을 제시한다.

실천 포인트

이미지 세그먼테이션 작업을 수행하는 엔지니어는 Hugging Face Transformers 라이브러리의 Mask2FormerForUniversalSegmentation 또는 OneFormerForUniversalSegmentation을 사용하면 단일 코드베이스로 인스턴스, 의미, 파놉틱 세그먼테이션을 구현할 수 있으며, 레이턴시가 허용되면 OneFormer를 통해 파놉틱 데이터셋만으로 학습해 세 작업 모두에서 최고 성능을 획득할 수 있다.

태그

#OneFormer #Transformers #Mask2Former #Universal Architecture #Image Segmentation

원문 읽기