SAM과 GPT-4o 결합을 통한 정밀 음식 세그멘테이션 기반 Visual RAG 파이프라인 구축

Beyond Simple Image Recognition: Building a Precise AI Nutritionist with GPT-4o and Segment Anything (SAM)

wellallyTech2026년 5월 2일5분intermediate

AI 요약

Context

단순 이미지 인식 기반 칼로리 추적 앱의 낮은 공간 인식 능력으로 인한 부정확한 분량 계산 문제 발생. 이미지 전체를 단일 픽셀 집합으로 처리하는 기존 Vision 모델의 한계로 인해 복합 음식의 개별 성분 분리 및 정밀한 부피 추정이 불가한 상황.

Technical Solution

SAM(Segment Anything Model)을 통한 이미지 내 개별 음식 아이템의 정밀 Mask 생성 및 영역 분리
생성된 Mask 기반의 상대적 면적 계산을 통한 음식별 추정 부피(Volume) 데이터 산출
SAM의 좌표 정보와 크롭된 이미지 데이터를 GPT-4o Vision에 입력하여 모델의 Attention을 특정 영역에 집중시키는 Context 주입
GPT-4o의 추론 결과인 Semantic Tag를 PostgreSQL 기반의 검증된 영양 데이터베이스와 교차 검증하는 Visual RAG 패턴 적용
Pydantic을 활용한 구조화된 출력(Structured Output) 정의로 AI 추론 결과의 데이터 일관성 및 타입 안정성 확보
FastAPI 기반의 Asynchronous API 계층 설계를 통한 고성능 비동기 이미지 처리 파이프라인 구축

실천 포인트

- 단순 LLM Vision에 의존하기보다 SAM과 같은 세그멘테이션 모델을 전처리 단계에 배치하여 데이터 밀도를 높일 것 - AI의 Hallucination 방지를 위해 추론 결과물을 직접 사용하지 말고 외부 Ground-truth DB와 연동하는 RAG 구조를 검토할 것 - 멀티모달 파이프라인 설계 시 Pydantic 등으로 출력 스키마를 강제하여 후속 프로세스의 런타임 에러를 방지할 것

태그

#SAM #Multimodal AI #Segmentation #Visual RAG #GPT-4o

원문 읽기