피드로 돌아가기
Dev.toAI/ML
원문 읽기
Hybrid Vision과 DrugBank API를 통한 실시간 DDI 스캐너 구축
From Pixels to Prescriptions: Building a Smart Drug-Drug Interaction (DDI) Scanner with GPT-4o and OCR
AI 요약
Context
약품 패키지의 복잡한 레이아웃으로 인한 단순 OCR 기반 성분 추출의 낮은 정확도 발생. 단순 텍스트 추출만으로는 성분명과 브랜드명을 구분하는 Semantic 이해 부족으로 인한 오분석 위험 존재.
Technical Solution
- Tesseract OCR을 통한 로컬 텍스트 Localization으로 1차 원천 데이터 확보
- GPT-4o Vision 모델을 활용한 복잡한 의료 라벨의 계층 구조 분석 및 성분명 Semantic Extraction
- Tesseract의 Raw Text와 GPT-4o의 분석 결과를 대조하는 Cross-Verification 프로세스 설계
- GPT-4o의 신뢰도 90% 미만 데이터에 대한 Manual Entry 플래그 처리로 Hallucination 방지
- 추출된 성분 리스트를 DrugBank API와 연동하여 임상적 상호작용(DDI) 데이터 검증
- React Native 기반의 UI를 통한 위험도(Severity)별 단계적 알림 체계 구현
실천 포인트
- Vision AI 도입 시 단일 모델 의존 대신 Local OCR과 LLM의 교차 검증 구조 검토 - 의료/금융 등 고신뢰성 도메인에서는 Confidence Threshold를 설정하여 Human-in-the-loop 공정 설계 - 비정형 이미지 데이터에서 정형 JSON 추출을 위해 LLM의 response_format 옵션 활용