피드로 돌아가기
Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents
Hugging Face BlogHugging Face Blog
AI/ML

IBM이 차트·테이블·문서 이해를 통합한 경량 비전-언어 모델 Granite 4.0 3B Vision을 LoRA 어댑터 방식으로 출시했다

Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents

2026년 3월 31일6intermediate

Context

기존 VLMs는 차트 이해 시 시각적 패턴, 수치 데이터, 자연어를 동시에 추론하는 능력이 부족했다. 시각 정보를 단일 지점에 주입하는 구조로 세밀한 공간 정보 손실이 발생했고, 멀티모달과 텍스트 전용 워크로드를 단일 모델로 처리하는 것이 어려웠다.

Technical Solution

  • ChartNet → 차트 해석 전용 170만 샘플 데이터셋을 24개 차트 유형과 6개 플로팅 라이브러리로 생성
  • DeepStack Injection → 추상 시각 피처는 레이어에, 고해상도 공간 피처는 후기 레이어에 분리 주입
  • LoRA Adapter → Granite 4.0 Micro 위에 LoRA 어댑터로 패키징하여 텍스트 전용 폴백 자동 지원
  • Docling Integration → 멀티페이지 PDF 자동 처리, 시각 요소 감지·분할·크롭 후 정제 이미지를 Granit Vision 모델로 전달

Impact

Chart2Summary에서 86.4%로 평가 대상 모델 중 최고 성능 달성, Chart2CSV에서 62.1%(Qwen3.5-9B 대비 2배 작은 모델) 기록, TableVQA에서 88.1% 정확도 달성

Key Takeaway

모듈러 아키텍처와 목적 설계 데이터셋의 조합이 경량 모델에서도 최고 성능 달성에 핵심적이다


기업 문서 자동화 환경에서 Docling으로 PDF 레이아웃 파싱 후 Granite Vision의 chart2csv와 tables_json을 적용하면 대규모 문서 컬렉션에서 구조화된 데이터 추출과 처리 효율성을 동시에 확보할 수 있다

원문 읽기