NVIDIA가 Llama-3.1-8B와 C-RADIOv2-VLM-H를 결합하여 8B 경량 VLM을 개발, OCRBench v2에서 업계 최고 수준의 문서 인식 정확도 달성

Welcome the NVIDIA Llama Nemotron Nano VLM to Hugging Face Hub

2025년 6월 27일7분intermediate

AI 요약

Context

엔터프라이즈 환경에서 송장, 영수증, 계약서 등 복잡한 문서를 처리할 때 기존 VLM들은 텍스트 인식, 테이블 추출, 차트 분석에서 정확도가 충분하지 않았다.

Technical Solution

Llama-3.1-8B-Instruct 기반 LLM에 C-RADIOv2-VLM-H Vision Transformer(ViT) 비전 백본 통합: 복잡한 시각 요소(차트, 그래프, 다이어그램) 처리 가능
동적 패치 특성 집계(dynamic patch feature aggregation) 적용: 임의의 종횡비를 가진 문서를 고해상도로 처리하면서 공간 연속성 보존
다중 해상도 데이터와 증류 기법으로 C-RADIO 학습: 가중치에 승법 노이즈 적용하여 일반화 개선
고해상도 타일링 혁신 기술 도입: 정보 보존 향상 및 왜곡 감소로 소형 폰트, 다단 레이아웃, 복잡 차트의 미세한 분석 지원
NeMo Retriever Parse의 OCR 솔루션 데이터와 합성 테이블 추출 데이터셋으로 학습: 정규화 공간에서 경계 상자 좌표 예측을 통한 접지(grounding) 작업 지원

Impact

OCRBench v2 벤치마크에서 텍스트 인식, 요소 분석, 테이블 추출 작업에서 현존 주요 VLM들을 초과하는 성능 달성 (구체적 수치 미명시).

Key Takeaway

경량 8B 모델로도 고해상도 문서 처리를 위해 강력한 비전 기초(Vision Transformer), 동적 특성 집계, 합성 데이터셋 활용을 결합하면 기존 대형 모델 수준의 문서 지능 정확도를 달성할 수 있다.

실천 포인트

금융, 의료, 법률, 정부 분야의 문서 자동화 솔루션을 구축하는 엔지니어는 Llama Nemotron Nano VL 모델과 NVIDIA NIM API 또는 Hugging Face 다운로드를 통해 프로덕션 수준의 송장/영수증 처리 시스템을 빠르게 구현할 수 있으며, NVIDIA NeMo를 사용해 자체 데이터셋으로 미세조정하여 특정 도메인 정확도를 추가로 개선할 수 있다.

태그

#Vision Language Model #Document Processing #Llama #OCR

원문 읽기