피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
0.6B 모델이 SA-1B에서 Macro-F1 68.0 달성, SAM 3(62.3) 상회
Falcon Perception
AI 요약
Context
기존 개방형 어휘 인식 시스템은 동결된 비전 백본, 후속 fusion/decoder, 후처리 모듈로 구성된 파이프라인 구조를 채택한다. 이러한 설계는 확장이 어렵고 개선의 원인을 특정 컴포넌트에 귀속시키기 어렵다는 단점이 있다.
Technical Solution
- 단일 early-fusion Transformer가 이미지 패치, 텍스트, 태스크 토큰을 unified sequence로 처리한다.
- Hybrid attention mask를 적용하여 이미지 토큰은 양방향, 텍스트·태스크 토큰은 인과적으로 attend한다.
- Chain-of-Perception 방식으로 → → 순서로 인스턴스를 예측한다.
- Fourier feature encoding을 활용한 좌표·크기 헤드로 연속 좌표 예측의 스펙트럼 편향 문제를 해결한다.
- 토큰과 upsampled image features 간 dot product로 고해상도 이진 마스크를 생성한다.
Impact
SA-1B에서 Macro-F1 68.0 달성(SAM 3: 62.3). Falcon OCR은 olmOCR 80.3, OmniDocBench 88.6 기록하며 오픈소스 OCR 최고 처리량을 달성했다.
Key Takeaway
복잡한 모듈별 파이프라인 대신 단일 Transformer backbone에 올바른 attention pattern과 학습 신호를 적용하면 시각적 인식도 통합적으로 처리 가능하다.
실천 포인트
개방형 이미지 분할·Localisation이 필요한 환경에서 early-fusion Transformer와 Chain-of-Perception 패턴을 적용하면 별도의 비전 백본 없이 SAM 3 수준의 성능을 0.6B规模的 모델로 달성할 수 있다.