피드로 돌아가기
Renaming 200 PDFs by Their Content — Without an LLM
Dev.toDev.to
Backend

LLM 없이 Rust 기반 Heuristics로 구현한 PDF 자동 명명 시스템

Renaming 200 PDFs by Their Content — Without an LLM

hiyoyo2026년 4월 27일2beginner

Context

무의미한 파일명으로 구성된 대량의 PDF 문서 관리의 어려움 발생. 기존 LLM 기반 처리 방식의 높은 비용과 네트워크 의존성 및 개인정보 유출 위험을 해결하기 위한 로컬 처리 아키텍처 필요.

Technical Solution

  • Rust 언어를 통한 메모리 안전성 확보 및 저사양 하드웨어에서의 고속 처리 구현
  • PDF 첫 페이지 텍스트 추출 후 Trim 및 Filtering을 거친 Line-based 데이터 구조화
  • 다중 정규표현식(Regex) 패턴 매칭을 통한 다양한 날짜 포맷의 표준화 및 추출
  • 키워드 기반의 Document Classification 로직을 통한 문서 유형 자동 분류
  • Heuristics 기반의 패턴 매칭으로 LLM 없이 로컬 환경에서 즉각적인 파일명 생성
  • 네트워크 호출을 완전히 배제한 Zero-API 아키텍처 설계로 데이터 프라이버시 강화

1. 복잡한 NLP 작업 전 정규표현식 기반의 Heuristics로 해결 가능한 범위인지 우선 검토

2. 저사양 환경의 성능 최적화를 위해 Rust와 같은 시스템 언어 채택 고려

3. 데이터 보안이 중요한 문서 처리 시 외부 API 호출 없는 Local-first 설계 적용

원문 읽기