피드로 돌아가기
Show GN: 주거나침반 - 공공임대주택 공고를 AI로 구조화해서 보여주는 서비스
GeekNewsGeekNews
AI/ML

Show GN: 주거나침반 - 공공임대주택 공고를 AI로 구조화해서 보여주는 서비스

비정형 공고문 PDF/HWP를 구조화된 JSON 데이터로 변환하는 AI 파이프라인 구축

scm14002026년 6월 1일3intermediate

Context

기관별로 상이한 PDF 및 HWP 형식의 공고문으로 인한 정보 접근성 저하 및 데이터 파편화 발생. 단순 텍스트 요약만으로는 사용자 맞춤형 필터링과 비교 분석이 불가능한 한계 직면.

Technical Solution

  • PDF/HWP 문서 내 텍스트 및 표 데이터를 추출하여 Chunk 단위로 분할 분석하는 전처리 파이프라인 설계
  • LLM을 활용하여 메타데이터, 자격 조건, 일정 등을 정의된 스키마 기반의 구조화된 JSON으로 추출
  • OpenAI/OpenRouter 호환 레이어 도입을 통한 모델 추상화 및 문서 길이에 따른 가변적 처리 전략 적용
  • 표 데이터의 행 병합 및 중복 생성 방지를 위한 전용 후처리 및 검증 로직 구현
  • Golden Set 기반의 추출 품질 평가 체계를 통한 분석 정확도 지속적 고도화

1. 비정형 문서 분석 시 단순 요약보다 정규화된 필드 추출(Normalization)에 집중할 것

2. 문서 길이에 따라 분석 단계를 분리하여 LLM의 컨텍스트 윈도우 및 토큰 효율성 최적화

3. AI 추출 값의 신뢰도 보완을 위해 원문 근거(Source Citation)를 사용자에게 함께 제공하는 UX 설계

4. 복잡한 표 구조의 데이터 정합성 확보를 위한 별도의 데이터 검증(Validation) 레이어 구축

원문 읽기