ํ”ผ๋“œ๋กœ ๋Œ์•„๊ฐ€๊ธฐ
๐Ÿฅ˜ From Pixels to Proteins: Mastering Calorie Estimation with GPT-4o Vision and SAM
Dev.toDev.to
AI/ML

๐Ÿฅ˜ From Pixels to Proteins: Mastering Calorie Estimation with GPT-4o Vision and SAM

Meta์˜ SAM ๋ชจ๋ธ๊ณผ GPT-4o Vision์„ ์กฐํ•ฉํ•˜์—ฌ ์Œ์‹ ์‚ฌ์ง„์—์„œ ์ •ํ™•ํ•œ ์นผ๋กœ๋ฆฌ ์ถ”์ • ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•

wellallyTech2026๋…„ 3์›” 26์ผ8๋ถ„intermediate

Context

๊ธฐ์กด AI ์˜์–‘ ์ถ”์  ์‹œ์Šคํ…œ์€ ๋‹จ์ˆœ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์— ์˜์กดํ•˜๋ฉด์„œ ์Œ์‹ ์•„์ดํ…œ ๊ฐ„ ๊ฒฝ๊ณ„ ์ธ์‹ ๋ถ€์กฑ์œผ๋กœ ์ •ํ™•ํ•œ ์นผ๋กœ๋ฆฌ ๊ณ„์‚ฐ์— ์‹คํŒจํ–ˆ๋‹ค. ํŠนํžˆ ๋น„์ „ ๊ธฐ๋ฐ˜ ์นผ๋กœ๋ฆฌ ์ถ”์ •์—์„œ "์Šคํ…Œ์ดํฌ์™€ ์œผ๊นฌ ๊ฐ์ž์˜ ๊ฒฝ๊ณ„"๋ฅผ ๊ตฌ๋ถ„ํ•˜์ง€ ๋ชปํ•˜๋ฉด ๊ฒฐ๊ณผ๊ฐ€ ๋ถ€์ •ํ™•ํ•˜๋‹ค.

Technical Solution

  • ์ด๋ฏธ์ง€ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ์ž‘์—…์„ SAM(Segment Anything Model)์œผ๋กœ ์ฒ˜๋ฆฌ: ์ด๋ฏธ์ง€์˜ ๋ชจ๋“  ๊ฐ์ฒด์— ๋Œ€ํ•ด ๊ฐœ๋ณ„ ๋งˆ์Šคํฌ ์ƒ์„ฑ
  • GPT-4o Vision์„ ์ถ”๋ก  ์—”์ง„์œผ๋กœ ํ™œ์šฉ: ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๊ฒฐ๊ณผ์™€ ์›๋ณธ ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ๋ฌด๊ฒŒยท๋ถ€ํ”ผ ์ถ”์ • ๋ฐ ์˜์–‘๊ฐ€ ๊ณ„์‚ฐ
  • React Native ์•ฑ โ†’ FastAPI ๋ฐฑ์—”๋“œ โ†’ SAM โ†’ GPT-4o โ†’ ์˜์–‘ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ๋กœ์ง ์ˆœ์„œ์˜ ์•„ํ‚คํ…์ฒ˜ ๊ตฌ์„ฑ
  • FastAPI /analyze-meal ์—”๋“œํฌ์ธํŠธ๋กœ ์ด๋ฏธ์ง€ ์—…๋กœ๋“œ ํ›„ JSON ํ˜•์‹์˜ ์‹ํ’ˆ ๋ชฉ๋ก, ์ด ์นผ๋กœ๋ฆฌ, ์‹ ๋ขฐ๋„ ๋ฐ˜ํ™˜
  • ๊ตฌ์กฐํ™”๋œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ GPT-4o์— ํฌํฌยท์ ‘์‹œ ํฌ๊ธฐ ๊ฐ™์€ ์‹œ๊ฐ์  ๋‹จ์„œ ๊ธฐ๋ฐ˜ ๋ฌด๊ฒŒยท๋ถ€ํ”ผ ์ถ”์ • ๊ฐ•์ œ

Impact

์•„ํ‹ฐํด์— ์ •๋Ÿ‰์  ์ˆ˜์น˜ ์ œ์‹œ ์—†์Œ

Key Takeaway

๋น„์ „ ๋ชจ๋ธ๊ณผ LLM์˜ ์—ญํ•  ๋ถ„๋‹ด์„ ๋ช…ํ™•ํžˆ ํ•˜๋ฉด ์ •ํ™•๋„๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค: ํ”ฝ์…€ ๋‹จ์œ„ ์ •ํ™•์„ฑ์ด ํ•„์š”ํ•œ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์€ SAM์œผ๋กœ, ๋ฌธ๋งฅ ๊ธฐ๋ฐ˜ ์ถ”๋ก ์€ GPT-4o๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉด ๊ฐ ๋ชจ๋ธ์˜ ๊ฐ•์ ์„ ๊ทน๋Œ€ํ™”ํ•œ๋‹ค.


์Œ์‹ ์˜์–‘ ์ถ”์  ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๊ฐœ๋ฐœ ์‹œ SAM์˜ ์ž๋™ ๋งˆ์Šคํฌ ์ƒ์„ฑ๊ณผ GPT-4o Vision์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก ์„ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ์—ฐ๊ฒฐํ•˜๋ฉด, ๋‹จ์ˆœ ๋ถ„๋ฅ˜ ๋ชจ๋ธ๋ณด๋‹ค ๋ถ€๋ถ„ ํฌ๊ธฐ ๋ณ€๋™์— ๊ฐ•๊ฑดํ•œ ์นผ๋กœ๋ฆฌ ์ถ”์ • ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ๋‹ค.

์›๋ฌธ ์ฝ๊ธฐ