피드로 돌아가기
From Pixels to Calories: Mastering Precise Food Estimation with Vision AI
Dev.toDev.to
AI/ML

SAM과 GPT-4o 결합을 통한 픽셀 단위 정밀 식단 부피 추정 엔진 구현

From Pixels to Calories: Mastering Precise Food Estimation with Vision AI

Beck_Moulton2026년 5월 14일5intermediate

Context

기존 Vision Multimodal 앱의 단순 객체 식별 한계로 인한 정량적 분석 불가 문제 발생. 2D 이미지 기반으로 음식의 실제 중량과 부피를 측정하는 데 따르는 정밀도 부족 해결 필요.

Technical Solution

  • OpenCV 전처리를 통한 이미지 정규화로 분석 효율 최적화
  • Segment Anything Model(SAM)을 활용한 픽셀 단위 Mask 생성으로 음식 영역의 정밀한 격리 수행
  • Bounding Box의 노이즈를 제거하고 정확한 Pixel Area를 계산하여 부피 추정의 기초 데이터 확보
  • GPT-4o의 Multimodal 추론 능력을 활용해 2D Mask 데이터와 물리적 밀도(Density) 및 깊이(Depth) 정보를 결합
  • Pydantic Validation을 적용한 Structured JSON 출력으로 비정형 AI 응답의 데이터 정합성 확보
  • FastAPI 기반의 비동기 엔드포인트 설계를 통한 SAM-GPT 파이프라인 통합 제어

1. 단순 Classification을 넘어 정량 분석 필요 시 SAM과 같은 고정밀 세그멘테이션 모델 도입 검토

2. AI 모델의 추론 결과에 물리적 제약 조건(예: 표준 접시 크기 10인치)을 프롬프트에 주입하여 정확도 향상

3. LLM 응답의 불안정성 해결을 위해 Pydantic 등 스키마 검증 레이어 필수 배치

4. GPU 메모리 점유율이 높은 SAM 모델의 고동시성 환경 배포를 위한 추론 지연 시간 최적화 전략 수립

원문 읽기