피드로 돌아가기
From Scans to Structured Data: Converting Medical Reports to JSON with Pydantic & LLMs
Dev.toDev.to
AI/ML

Pydantic와 Instructor 기반의 Type-Safe 의료 데이터 추출 파이프라인 설계

From Scans to Structured Data: Converting Medical Reports to JSON with Pydantic & LLMs

wellallyTech2026년 5월 6일5intermediate

Context

병원별 상이한 레이아웃과 비정형 텍스트로 인한 수동 데이터 입력의 비효율성 발생. 단순 LLM 프롬프팅 방식은 Hallucination 및 스키마 불일치로 인해 Production 환경 적용에 한계 노출.

Technical Solution

  • Azure AI Document Intelligence를 통한 이미지 기반 Raw Text 및 Table 구조의 정밀 추출
  • Pydantic Model 정의를 통한 의료 데이터(LOINC 표준)의 엄격한 Type Safety 확보
  • Instructor 라이브러리를 활용하여 LLM 응답을 Pydantic 객체로 직접 매핑하는 인터페이스 구현
  • Validation 실패 시 max_retries 설정을 통한 자동 재시도 루프 설계로 데이터 정합성 강화
  • 비정형 텍스트에서 구조화된 JSON으로 변환하는 'OCR $\rightarrow$ LLM $\rightarrow$ Schema Enforcement' 파이프라인 구축

- LLM 출력의 안정성이 필요할 때 단순 JSON 요청 대신 Pydantic 기반의 Schema Enforcement 도입 검토 - OCR 결과물의 Table 구조 보존을 위해 전문 Document Intelligence 서비스 활용 - 데이터 정합성 보장을 위해 LLM 응답에 대한 자동 재시도(Retry) 로직 및 검증 단계 포함

원문 읽기