피드로 돌아가기
Unlock the power of images with AI Sheets
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face AI Sheets가 Vision 모델 지원을 추가하여 이미지에서 데이터 추출, 생성, 편집을 스프레드시트 내에서 직접 처리

Unlock the power of images with AI Sheets

2025년 10월 21일12beginner

Context

기존 AI Sheets는 텍스트 콘텐츠의 구조화와 강화만 지원했으며, 영수증, 문서, 제품 사진 등 시각적 데이터에 포함된 정보 추출이 불가능했다. 엔지니어링 팀은 이미지 형식의 데이터를 처리하기 위해 별도 도구나 수작업이 필요한 상황을 개선해야 했다.

Technical Solution

  • Vision 모델 통합: Qwen/Qwen2.5-VL-7B-Instruct, Qwen/Qwen3-VL-235B-A22B-Reasoning 등 Inference Providers를 통해 수천 개의 오픈 모델 지원
  • 이미지 데이터 추출 기능: OCR 템플릿으로 손글씨·인쇄 문서에서 텍스트 추출, 영수증에서 상인명·날짜·금액·비용 카테고리 자동 추출
  • 이미지 생성 및 편집 기능: 텍스트 프롬프트로 소셜 미디어 이미지 생성, 기존 이미지 변환(스타일 변경, 요소 추가, 구성 조정) 지원
  • 이미지 분석 작업: 이미지 설명 생성, 문서 유형 분류, 컨텐츠 기반 태깅, 메타데이터 자동 부여 기능 제공
  • 반복 개선 루프: 사용자 피드백(thumbs-up)을 few-shot 예시로 활용하여 모델 성능 향상

Impact

아티클에 정량적 성능 수치가 명시되지 않음.

Key Takeaway

AI Sheets의 비전 모델 통합으로 텍스트와 이미지를 통합 워크플로우에서 처리할 수 있게 되어, 데이터 준비 작업을 단일 플랫폼으로 집중화할 수 있다. 이는 영수증 디지털화, 레시피 구조화, 소셜 미디어 콘텐츠 자동 생성 같은 다양한 데이터 강화 시나리오에서 수작업을 최소화한다.


대량의 이미지 기반 데이터를 정리해야 하는 팀(예: 비용 보고, 문서 디지털화, 콘텐츠 라이브러리 구축)에서 AI Sheets의 Vision 모델과 Inference Providers를 활용하면 코딩 없이 이미지에서 구조화된 데이터를 추출하고, 피드백 루프를 통해 모델 정확도를 반복적으로 개선할 수 있다.

원문 읽기