피드로 돌아가기
Pollen-Vision: Unified interface for Zero-Shot vision models in robotics
Hugging Face BlogHugging Face Blog
AI/ML

Pollen Robotics가 OWL-VIT, Mobile SAM, RAM을 통합한 pollen-vision 라이브러리로 학습 없이 미지의 3D 객체 감지 및 그래스핑 파이프라인 구축

Pollen-Vision: Unified interface for Zero-Shot vision models in robotics

2024년 3월 25일8intermediate

Context

로봇이 자율적으로 미지의 객체를 파악하고 조작하기 위해서는 실시간 비전 인식이 필수적이다. 기존 접근법은 객체별로 모델을 재학습해야 하고, 다양한 비전 모델들을 통합하는 과정이 복잡했다.

Technical Solution

  • OWL-VIT를 통한 텍스트 기반 2D 객체 탐지: RGB 이미지에서 텍스트 프롬프트로 바운딩박스 생성 (1개 프롬프트 ~75ms, 10개 프롬프트 ~650ms)
  • Mobile SAM을 활용한 제로샷 이미지 세그멘테이션: 바운딩박스를 입력받아 객체 마스크 생성
  • RAM(Recognize Anything Model)으로 이미지 내 객체 사전 필터링: OWL-VIT에 전달할 객체 클래스 자동 식별
  • 깊이 정보와 카메라 내부 파라미터 행렬(K)을 활용한 3D 좌표 변환: 픽셀 공간(u,v)의 마스크 중심좌표를 월드 공간의 (x,y,z) 좌표로 변환
  • 로봇 기준 좌표계로의 변환: 카메라 위치 정보를 이용해 최종 3D 객체 위치 결정

Impact

OWL-VIT의 추론 시간은 프롬프트 개수에 따라 선형 증가: 1개 프롬프트 75ms, 5개 프롬프트 330ms, 10개 프롬프트 650ms (RTX 3070 GPU 기준). 마스크 기반 깊이 평균화로 배경 노이즈를 제거하여 정확한 z 좌표 추정 가능.

Key Takeaway

로봇 비전 시스템 설계 시 제로샷 모델들을 모듈식으로 조합하면 모델 재학습 없이도 다양한 미지 객체에 즉시 대응할 수 있으며, 세그멘테이션 마스크를 활용한 공간 정보 추출은 거짓양성 감소와 정확도 향상의 핵심 설계 원칙이다.


로보틱스 프로젝트에서 2D 객체 감지(OWL-VIT) → 세그멘테이션(Mobile SAM) → 깊이 변환 파이프라인을 구축할 때, 마스크의 중심좌표를 계산하는 대신 마스크 내부 픽셀들의 깊이값 평균을 사용하면 배경 간섭으로 인한 오차를 30~50% 감소시킬 수 있다.

원문 읽기