피드로 돌아가기
Unlimited OCR — Baidu의 원샷 장문 파싱 모델
GeekNewsGeekNews
AI/ML

Unlimited OCR — Baidu의 원샷 장문 파싱 모델

R-SWA 도입으로 KV 캐시를 상수로 유지하며 OmniDocBench 93.92% SOTA 달성

xguru2026년 6월 24일15advanced

Context

기존 OCR 모델은 페이지별 순차 처리 방식의 메모리 초기화로 인해 장문 문맥 유지에 한계 노출. LLM 디코더 채택 시 출력 길이에 비례해 KV 캐시가 선형 증가하며 GPU 메모리 고갈 및 추론 속도 저하가 발생하는 병목 지점 존재.

Technical Solution

  • Reference Sliding Window Attention(R-SWA) 설계를 통한 KV 캐시의 상수 시간 복잡도 유지
  • 시각 토큰 및 프롬프트를 포함한 Prefix 윈도우(m)는 고정하고, 디코딩 영역(n)에만 인과적 Sliding Window 적용
  • KV 캐시를 m+n 용량의 Queue 구조로 구현하여 새 토큰 생성 시 오래된 KV를 축출하는 메커니즘 채택
  • SAM-ViT와 CLIP-ViT를 캐스케이드한 DeepEncoder를 통해 고해상도 이미지 토큰을 16배 압축하여 Prefill 부하 감소
  • 시각 토큰을 상태 전이 없이 정적 유지함으로써 장문 파싱 중 시각 특징이 흐려지는 현상 방지
  • MoE(Mixture of Experts) 디코더 구조를 결합하여 3B 파라미터 규모에서 활성 파라미터를 500M으로 최적화

Impact

  • OmniDocBench v1.6 기준 93.92% 정확도로 End-to-End SOTA 달성
  • Base 모드 기준 5580 TPS 기록하며 DeepSeek OCR 대비 12.7% 속도 향상
  • 6,000 토큰 생성 시 표준 MHA 대비 추론 속도 35% 우위 확보
  • 40페이지 이상의 초장문 문서에서 편집 거리 0.11 미만 및 Distinct-35 97% 유지

Key Takeaway

전체 문맥을 모두 기억하려는 Full Attention의 비효율성을 인정하고, 변하지 않는 Global Reference와 변하는 Local Context를 분리 설계함으로써 메모리 제약을 극복하고 처리 성능을 극대화한 사례


1. 장문 생성 태스크 설계 시 모든 토큰의 KV 캐시를 유지하는 대신, 고정된 Prefix와 Sliding Window의 조합 검토

2. 입력 데이터(이미지 등)의 고차원 특징을 효율적으로 처리하기 위한 토큰 압축(Compression) 레이어 도입 고려

3. 시퀀스 길이에 따른 지연 시간 스파이크 방지를 위해 KV 캐시의 상한선을 강제하는 Queue 기반 메모리 관리 적용

4. 모델 전체 파라미터보다 활성 파라미터 수를 제어하는 MoE 구조를 통해 추론 비용 최적화

원문 읽기