Google이 SigLIP에 텍스트 디코더, 자기-증류 손실 함수, 동적 해상도 적응을 추가하여 다국어 비전-언어 인코더 성능을 모든 스케일에서 향상

SigLIP 2: A better multilingual vision language encoder

2025년 2월 21일10분intermediate

AI 요약

Context

CLIP와 ALIGN 이후 비전 인코더는 밀집되고, 위치 인식 능력이 있으며, 의미론적으로 풍부한 표현을 학습해야 했다. SigLIP은 sigmoid 손실로 개선했으나, 세밀한 로컬 의미론과 위치 인식이 더 필요했다.

Technical Solution

텍스트 디코더 추가: 전체 이미지 캡션 예측, 바운딩 박스 좌표 예측, 영역별 캡션 예측으로 비전 인코더에 위치 인식 신호 제공
자기-증류 기법 적용: 학생 네트워크와 교사 네트워크(이동 평균)를 동일 모델로 사용하여 로컬 의미론 개선
Global-Local 손실 함수: 학생이 부분 이미지 뷰로 학습하고 전체 이미지 기반 교사 표현과 매칭
Masked Prediction 손실 함수: 임베딩된 이미지 패치의 50%를 마스킹하고 학생이 마스크된 위치의 특징을 교사와 매칭
동적 해상도 적응 (NaFlex): FlexiViT와 NaViT 영감으로 가변 길이 입력과 네이티브 종횡비를 지원하는 단일 모델로 OCR 및 문서 이해 작업 수행 가능
고정 해상도 변형: 95% 학습 체크포인트에서 위치 임베딩과 패치 임베딩을 리사이징하여 추가 해상도 학습

Impact

SigLIP 2는 영상 분류, 이미지-텍스트 검색, 비전-언어 모델을 위한 시각 표현 추출에서 모든 모델 스케일에서 SigLIP 1을 능가함.

Key Takeaway

스마트한 학습 목표 함수(디코더, 자기-증류, 마스킹)를 적층하면 구조화되고 세밀하며 강력한 다중모달 인코더를 구축할 수 있으며, 동적 해상도 지원으로 다양한 하위 작업에 단일 모델을 적응시킬 수 있다.

실천 포인트

비전-언어 모델을 개발하는 엔지니어는 기본 sigmoid 손실 인코더에 텍스트 디코더 손실과 자기-증류 손실을 단계적으로 추가(전체 학습의 80% 이후)하면 위치 인식과 세밀한 의미론을 동시에 확보할 수 있으며, NaFlex 동적 해상도 변형을 선택하면 OCR부터 문서 이해까지 단일 모델로 다양한 종횡비 작업을 처리할 수 있다.

태그

#Vision Language Model #Dynamic Resolution #Self-Distillation #Multimodal Encoder

원문 읽기