피드로 돌아가기
How to Convert PDF and Excel Invoices to CSV for Faster Data Processing
Dev.toDev.to
Backend

다양한 송장 포맷의 자동 파싱을 통한 데이터 파이프라인 효율화

How to Convert PDF and Excel Invoices to CSV for Faster Data Processing

kevincarroll2026년 6월 20일1beginner

Context

PDF, XLS, HTML 등 파편화된 송장 포맷으로 인한 데이터 수집 병목 발생. 수동 Copy-paste 방식에 따른 높은 Human Error 발생률과 정형 데이터 저장소의 일관성 결여가 주요 한계점으로 작용.

Technical Solution

  • Multi-format Parsing 엔진 도입을 통한 PDF, XLSX, HTML 파일의 통합 처리 구조 설계
  • Document Structure Analysis를 통한 표 구조 및 Line Item 자동 탐지 로직 구현
  • 비정형 데이터의 정규화를 통한 Row-Column 기반의 Structured Data 변환 프로세스 구축
  • 외부 시스템 호환성 확보를 위한 CSV 포맷 기반의 표준 출력 레이어 설계
  • 데이터 전처리 단계의 자동화를 통한 데이터 Ingestion 파이프라인 단순화

- 입력 데이터의 포맷 다양성을 수용하는 추상화 레이어 설계 검토 - 비정형 문서의 정형 데이터 변환 시 데이터 정규화(Normalization) 규칙 정의 - 하위 시스템과의 호환성을 위한 범용 인터체인지 포맷(CSV 등) 채택 여부 판단

원문 읽기