피드로 돌아가기
Stop Guessing Your Meds: Building a Multimodal RAG Assistant with LLaVA and ChromaDB
Dev.toDev.to
AI/ML

LLaVA와 ChromaDB 기반 Multimodal RAG를 통한 약품 안전 정보 추출 시스템 구축

Stop Guessing Your Meds: Building a Multimodal RAG Assistant with LLaVA and ChromaDB

Beck_Moulton2026년 6월 14일6intermediate

Context

기존 OCR 기반 텍스트 추출 방식은 약품 패키지의 곡면이나 작은 폰트로 인한 인식률 저하 및 단순 텍스트 출력의 한계 존재. 단순 정보 제공을 넘어 검증된 의료 지식 기반의 안전 가이드라인을 제공하는 신뢰성 있는 시스템 필요성 대두.

Technical Solution

  • LLaVA 모델을 활용한 이미지 내 약품 브랜드 및 성분 식별로 Vision-to-Query 변환 단계 구현
  • ChromaDB Vector Store에 약품별 금기 사항 및 복용법을 Embedding 형태로 저장하여 Semantic Search 기반 지식 추출
  • LLaVA의 시각 분석 결과물을 Query로 사용하여 Vector DB에서 관련 context를 검색하는 Multimodal RAG 파이프라인 설계
  • 검색된 정밀 의료 데이터와 LLaVA의 추론 능력을 결합하여 할루시네이션을 방지한 Grounded Generation 수행
  • Ollama를 통한 로컬 LLM 서빙으로 의료 데이터의 민감성을 고려한 Privacy-preserving 아키텍처 구성
  • Gradio 기반 인터페이스를 통한 이미지 입력 및 안전 지침 출력의 End-to-End 워크플로우 통합

1. Vision 모델의 출력값을 단순 결과가 아닌 Vector DB의 Query로 활용하는 RAG 패턴 검토

2. 도메인 특화 데이터(의료 등) 처리 시 Local LLM 서빙을 통한 데이터 유출 방지 전략 수립

3. OCR 인식률 한계 극복을 위해 LLaVA와 같은 Multimodal LLM의 공간 이해 능력 활용 고려

4. 단순 RAG에서 나아가 Hybrid Search 및 Agentic Workflow 도입을 통한 검색 정밀도 향상 방안 탐색

원문 읽기