피드로 돌아가기
Dev.toAI/ML
원문 읽기

Bounding-Box Masking을 통한 PDF 테이블 중복 제거 및 Token 소모 75% 절감
How to Fix PDF Table Duplication in RAG / LLM Pipelines (Python)
AI 요약
Context
일반적인 PDF Parser가 테이블 데이터를 일반 텍스트와 셀 데이터로 중복 추출하는 구조적 한계 존재. 이로 인한 LLM의 문서 레이아웃 이해도 저하 및 Token 사용량의 3~4배 폭증 문제 발생.
Technical Solution
- pdfplumber 라이브러리를 활용한 페이지 내 모든 Table의 좌표(Bounding-Box) 정밀 식별
- 식별된 좌표 내부 데이터를 GitHub-Flavored Markdown 형식으로 변환하여 구조적 무결성 확보
- 전체 텍스트 추출 전 Table Bounding-Box 영역을 동적으로 Masking하여 중복 텍스트 유입 차단
- 일반 Prose 텍스트와 구조화된 Markdown Table을 결합한 단일 텍스트 스트림 생성
- In-memory 프로세싱 기반의 마이크로서비스 구조를 통한 데이터 처리 효율화
Impact
- 중복 텍스트 제거를 통한 Token 사용량 3~4배(75% 이상) 감소
실천 포인트
PDF 파싱 시 전체 텍스트 추출 전 Table 좌표를 먼저 확보하고, 해당 영역을 제외한 텍스트만 추출하는 Masking 전략 검토