ν”Όλ“œλ‘œ λŒμ•„κ°€κΈ°
From Pills to Pixels: Building an Intelligent Home Pharmacy Manager with YOLOv8 and CLIP πŸ’Šβœ¨
Dev.toDev.to
AI/ML

YOLOv8κ³Ό CLIP 기반의 Multi-modal νŒŒμ΄ν”„λΌμΈμ„ ν†΅ν•œ μ˜μ•½ν’ˆ 식별 μžλ™ν™”

From Pills to Pixels: Building an Intelligent Home Pharmacy Manager with YOLOv8 and CLIP πŸ’Šβœ¨

wellallyTech2026λ…„ 6μ›” 3일4λΆ„intermediate

Context

μ˜μ•½ν’ˆ νŒ¨ν‚€μ§€μ˜ μž‘μ€ ν°νŠΈμ™€ λ‹€μ–‘ν•œ μ‘°λͺ… ν™˜κ²½μœΌλ‘œ 인해 단일 λͺ¨λΈ 기반의 λΆ„λ₯˜ μ‹œμŠ€ν…œμ—μ„œ 인식λ₯  μ €ν•˜ λ°œμƒ. 특히 OCR의 μ˜€νƒ€ λ°œμƒ κ°€λŠ₯μ„±κ³Ό 이미지 기반 λΆ„λ₯˜μ˜ λͺ¨ν˜Έμ„±μ„ λ™μ‹œμ— ν•΄κ²°ν•΄μ•Ό ν•˜λŠ” 기술적 μ œμ•½ 쑴재.

Technical Solution

  • YOLOv8 기반의 객체 νƒμ§€λ‘œ 이미지 λ‚΄ μ˜μ•½ν’ˆ λ°•μŠ€ μ˜μ—­μ„ μ •λ°€ν•˜κ²Œ Crop ν•˜μ—¬ 뢄석 λŒ€μƒ κ΅­μ†Œν™”
  • Tesseract OCR을 ν†΅ν•œ ν…μŠ€νŠΈ μΆ”μΆœκ³Ό CLIP의 Visual Embedding을 λ³‘λ ¬μ μœΌλ‘œ μ²˜λ¦¬ν•˜λŠ” Detect-Extract-Embed μ›Œν¬ν”Œλ‘œμš° 섀계
  • OCR의 ν…μŠ€νŠΈ μ˜€μΈμ‹ κ°€λŠ₯성을 CLIP의 μ‹œλ§¨ν‹± 이미지-ν…μŠ€νŠΈ λ§€μΉ­ 벑터 κ³΅κ°„μœΌλ‘œ λ³΄μ™„ν•˜μ—¬ 식별 정확도 ν–₯상
  • SQLiteλ₯Ό ν™œμš©ν•˜μ—¬ μΆ”μΆœλœ ν…μŠ€νŠΈ 정보와 벑터 μž„λ² λ”© 결과의 ꡐ차 검증을 ν†΅ν•œ μ΅œμ’… μ•½ν’ˆ 정보 λ§€ν•‘
  • 정밀도 ν–₯상을 μœ„ν•΄ 일반 YOLO λͺ¨λΈμ„ Open Images Dataset의 Medical Packaging 클래슀둜 Fine-tuning ν•˜λŠ” μ „λž΅ 채택

1. OCR 인식λ₯  μ €ν•˜ λŒ€λΉ„λ₯Ό μœ„ν•œ CLIP λ“± μ‹œλ§¨ν‹± μž„λ² λ”© λͺ¨λΈμ˜ ꡐ차 검증 λ ˆμ΄μ–΄ κ²€ν† 

2. μ „μ²˜λ¦¬ λ‹¨κ³„μ—μ„œ Perspective Warping 및 Rotation Correction 적용 μ—¬λΆ€ 확인

3. 도메인 νŠΉν™” 데이터셋을 ν™œμš©ν•œ YOLOv8 Fine-tuning으둜 탐지 정확도 μ΅œμ ν™”

원문 읽기