0.6B 모델이 SA-1B에서 Macro-F1 68.0 달성, SAM 3(62.3) 상회

Falcon Perception

2026년 4월 1일14분advanced

AI 요약

Context

기존 개방형 어휘 인식 시스템은 동결된 비전 백본, 후속 fusion/decoder, 후처리 모듈로 구성된 파이프라인 구조를 채택한다. 이러한 설계는 확장이 어렵고 개선의 원인을 특정 컴포넌트에 귀속시키기 어렵다는 단점이 있다.

SA-1B에서 Macro-F1 68.0 달성(SAM 3: 62.3). Falcon OCR은 olmOCR 80.3, OmniDocBench 88.6 기록하며 오픈소스 OCR 최고 처리량을 달성했다.

복잡한 모듈별 파이프라인 대신 단일 Transformer backbone에 올바른 attention pattern과 학습 신호를 적용하면 시각적 인식도 통합적으로 처리 가능하다.

실천 포인트

개방형 이미지 분할·Localisation이 필요한 환경에서 early-fusion Transformer와 Chain-of-Perception 패턴을 적용하면 별도의 비전 백본 없이 SAM 3 수준의 성능을

0.6B规模的 모델로 달성할 수 있다.

태그