피드로 돌아가기
Dev.toAI/ML
원문 읽기
SAM과 GPT-4o 결합을 통한 픽셀 단위 정밀 식단 부피 추정 엔진 구현
From Pixels to Calories: Mastering Precise Food Estimation with Vision AI
AI 요약
Context
기존 Vision Multimodal 앱의 단순 객체 식별 한계로 인한 정량적 분석 불가 문제 발생. 2D 이미지 기반으로 음식의 실제 중량과 부피를 측정하는 데 따르는 정밀도 부족 해결 필요.
Technical Solution
- OpenCV 전처리를 통한 이미지 정규화로 분석 효율 최적화
- Segment Anything Model(SAM)을 활용한 픽셀 단위 Mask 생성으로 음식 영역의 정밀한 격리 수행
- Bounding Box의 노이즈를 제거하고 정확한 Pixel Area를 계산하여 부피 추정의 기초 데이터 확보
- GPT-4o의 Multimodal 추론 능력을 활용해 2D Mask 데이터와 물리적 밀도(Density) 및 깊이(Depth) 정보를 결합
- Pydantic Validation을 적용한 Structured JSON 출력으로 비정형 AI 응답의 데이터 정합성 확보
- FastAPI 기반의 비동기 엔드포인트 설계를 통한 SAM-GPT 파이프라인 통합 제어
실천 포인트
1. 단순 Classification을 넘어 정량 분석 필요 시 SAM과 같은 고정밀 세그멘테이션 모델 도입 검토
2. AI 모델의 추론 결과에 물리적 제약 조건(예: 표준 접시 크기 10인치)을 프롬프트에 주입하여 정확도 향상
3. LLM 응답의 불안정성 해결을 위해 Pydantic 등 스키마 검증 레이어 필수 배치
4. GPU 메모리 점유율이 높은 SAM 모델의 고동시성 환경 배포를 위한 추론 지연 시간 최적화 전략 수립