피드로 돌아가기
Dev.toAI/ML
원문 읽기
Gemma 4 31B 기반 OCR-less 멀티모달 의료 라벨 해석 시스템 구축
MedScan Assistant — AI medication label reader for seniors, powered by Gemma 4
AI 요약
Context
복잡한 레이아웃과 작은 폰트의 약품 라벨 해석 시 발생하는 기존 OCR 기반 텍스트 추출의 정확도 한계 및 인지 저하 사용자의 정보 접근성 결여 문제 분석.
Technical Solution
- Native Multimodal Input 적용을 통한 별도의 OCR 단계 제거 및 시각적 컨텍스트 기반의 직접 해석 구조 설계
- Gemma 4 31B Dense 모델 채택으로 추론 속도보다 정확도를 우선시한 약물 상호작용 및 복잡한 복용법 파싱 최적화
- 엄격한 JSON Schema 정의 및 Temperature 0.2 설정을 통한 의료 데이터의 일관성 및 신뢰성 확보
- Market-aware System Prompt 설계를 통해 단일 모델 내에서 미국 FDA 및 폴란드 EU 규격의 다국어 처리 구현
- Web Speech API와 연동된 voice_text 필드 추출로 시각 장애인을 위한 실시간 음성 출력 파이프라인 구축
- parseGemmaResponse 함수 구현을 통한 LLM 출력물 내 백틱 제거 및 JSON 파싱 예외 처리 로직 적용
실천 포인트
1. 정확도가 핵심인 도메인에서는 모델 크기(Parameter)를 확장하여 Latency보다 Accuracy를 우선 확보할 것
2. OCR-LLM 파이프라인 대신 Native Multimodal 모델을 사용하여 텍스트 위치 및 레이아웃 손실 방지
3. 비정형 LLM 응답을 시스템에 통합할 때 엄격한 JSON Schema와 Post-processing 파서를 반드시 구축할 것
4. 다국어 지원 시 별도 모델 도입 대신 Market-aware System Prompt를 통한 단일 모델 효율화 검토