Unlimited OCR — Baidu의 원샷 장문 파싱 모델

R-SWA 도입으로 KV 캐시를 상수로 유지하며 OmniDocBench 93.92% SOTA 달성

xguru2026년 6월 24일15분advanced

AI 요약

Context

기존 OCR 모델은 페이지별 순차 처리 방식의 메모리 초기화로 인해 장문 문맥 유지에 한계 노출. LLM 디코더 채택 시 출력 길이에 비례해 KV 캐시가 선형 증가하며 GPU 메모리 고갈 및 추론 속도 저하가 발생하는 병목 지점 존재.

전체 문맥을 모두 기억하려는 Full Attention의 비효율성을 인정하고, 변하지 않는 Global Reference와 변하는 Local Context를 분리 설계함으로써 메모리 제약을 극복하고 처리 성능을 극대화한 사례

실천 포인트

1. 장문 생성 태스크 설계 시 모든 토큰의 KV 캐시를 유지하는 대신, 고정된 Prefix와 Sliding Window의 조합 검토

2. 입력 데이터(이미지 등)의 고차원 특징을 효율적으로 처리하기 위한 토큰 압축(Compression) 레이어 도입 고려

3. 시퀀스 길이에 따른 지연 시간 스파이크 방지를 위해 KV 캐시의 상한선을 강제하는 Queue 기반 메모리 관리 적용

4. 모델 전체 파라미터보다 활성 파라미터 수를 제어하는 MoE 구조를 통해 추론 비용 최적화

태그