피드로 돌아가기
From Pixels to Calories: Building an Automated Meal Tracking Pipeline with YOLOv8 and GPT-4o
Dev.toDev.to
AI/ML

YOLOv8-GPT-4o 하이브리드 파이프라인을 통한 정밀 영양 분석 시스템 구축

From Pixels to Calories: Building an Automated Meal Tracking Pipeline with YOLOv8 and GPT-4o

Beck_Moulton2026년 5월 9일5intermediate

Context

수동 식단 기록의 높은 진입장벽과 휴먼 에러 해결을 위한 자동화 파이프라인 필요성 증대. GPT-4o 단일 모델 사용 시 발생하는 높은 API 비용 및 고해상도 이미지 내 소형 객체 인식의 낮은 공간 정밀도 문제 직면.

Technical Solution

  • YOLOv8을 Pre-processor로 활용하여 실시간 Object Detection 및 Region of Interest(ROI) 추출
  • 검출된 Bounding Box 기반의 Image Cropping을 통해 분석 대상의 컨텍스트 밀도 최적화
  • 최적화된 이미지 조각과 Label 정보를 GPT-4o에 전달하여 추론 비용 절감 및 분석 정확도 향상
  • System Prompt 설계를 통한 전문 영양사 페르소나 부여 및 JSON 형식의 정형 데이터 출력 강제
  • OpenCV를 활용한 전처리 과정으로 입력 데이터의 일관성 확보 및 파이프라인 안정화

Key Takeaway

대형 Multimodal 모델의 높은 비용과 낮은 정밀도를 해결하기 위해, 가벼운 Detection 모델로 ROI를 먼저 선별하는 '계층적 분석 아키텍처'의 효율성 입증.


- 고비용 LLM API 사용 전, 소형 모델을 통한 데이터 필터링 및 전처리 단계 검토 - 이미지 분석 시 전체 이미지보다 Crop된 이미지와 텍스트 라벨을 함께 제공하여 추론 정확도 개선 - 정확한 부피 추정을 위해 기준 객체(Reference Object)를 포함한 이미지 가이드라인 설계 고려 - 생산 환경 적용 시 비동기 처리 큐(Asynchronous Queue) 도입을 통한 API Rate Limit 대응

원문 읽기