IBM이 차트·테이블·문서 이해를 통합한 경량 비전-언어 모델 Granite 4.0 3B Vision을 LoRA 어댑터 방식으로 출시했다

Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents

2026년 3월 31일6분intermediate

AI 요약

Context

기존 VLMs는 차트 이해 시 시각적 패턴, 수치 데이터, 자연어를 동시에 추론하는 능력이 부족했다. 시각 정보를 단일 지점에 주입하는 구조로 세밀한 공간 정보 손실이 발생했고, 멀티모달과 텍스트 전용 워크로드를 단일 모델로 처리하는 것이 어려웠다.

ChartNet → 차트 해석 전용 170만 샘플 데이터셋을 24개 차트 유형과 6개 플로팅 라이브러리로 생성
DeepStack Injection → 추상 시각 피처는 레이어에, 고해상도 공간 피처는 후기 레이어에 분리 주입
LoRA Adapter → Granite 4.0 Micro 위에 LoRA 어댑터로 패키징하여 텍스트 전용 폴백 자동 지원
Docling Integration → 멀티페이지 PDF 자동 처리, 시각 요소 감지·분할·크롭 후 정제 이미지를 Granit Vision 모델로 전달

Chart2Summary에서 86.4%로 평가 대상 모델 중 최고 성능 달성, Chart2CSV에서 62.1%(Qwen3.5-9B 대비 2배 작은 모델) 기록, TableVQA에서 88.1% 정확도 달성

모듈러 아키텍처와 목적 설계 데이터셋의 조합이 경량 모델에서도 최고 성능 달성에 핵심적이다

실천 포인트

기업 문서 자동화 환경에서 Docling으로 PDF 레이아웃 파싱 후 Granite Vision의 chart2csv와 tables_json을 적용하면 대규모 문서 컬렉션에서 구조화된 데이터 추출과 처리 효율성을 동시에 확보할 수 있다

태그