LLaVA와 ChromaDB 기반 Multimodal RAG를 통한 약품 안전 정보 추출 시스템 구축

Stop Guessing Your Meds: Building a Multimodal RAG Assistant with LLaVA and ChromaDB

Beck_Moulton2026년 6월 14일6분intermediate

AI 요약

Context

기존 OCR 기반 텍스트 추출 방식은 약품 패키지의 곡면이나 작은 폰트로 인한 인식률 저하 및 단순 텍스트 출력의 한계 존재. 단순 정보 제공을 넘어 검증된 의료 지식 기반의 안전 가이드라인을 제공하는 신뢰성 있는 시스템 필요성 대두.

LLaVA 모델을 활용한 이미지 내 약품 브랜드 및 성분 식별로 Vision-to-Query 변환 단계 구현
ChromaDB Vector Store에 약품별 금기 사항 및 복용법을 Embedding 형태로 저장하여 Semantic Search 기반 지식 추출
LLaVA의 시각 분석 결과물을 Query로 사용하여 Vector DB에서 관련 context를 검색하는 Multimodal RAG 파이프라인 설계
검색된 정밀 의료 데이터와 LLaVA의 추론 능력을 결합하여 할루시네이션을 방지한 Grounded Generation 수행
Ollama를 통한 로컬 LLM 서빙으로 의료 데이터의 민감성을 고려한 Privacy-preserving 아키텍처 구성
Gradio 기반 인터페이스를 통한 이미지 입력 및 안전 지침 출력의 End-to-End 워크플로우 통합

실천 포인트

1. Vision 모델의 출력값을 단순 결과가 아닌 Vector DB의 Query로 활용하는 RAG 패턴 검토

2. 도메인 특화 데이터(의료 등) 처리 시 Local LLM 서빙을 통한 데이터 유출 방지 전략 수립

3. OCR 인식률 한계 극복을 위해 LLaVA와 같은 Multimodal LLM의 공간 이해 능력 활용 고려

4. 단순 RAG에서 나아가 Hybrid Search 및 Agentic Workflow 도입을 통한 검색 정밀도 향상 방안 탐색

태그