Prezi가 Hugging Face Expert Support Program에 참여해 오픈소스 재랭킹 모델을 도입함으로써 이미지·텍스트 검색 성능을 LLM 대비 더 빠르고 저비용으로 달성

Going multimodal: How Prezi is leveraging the Hub and the Expert Support Program to accelerate their ML roadmap

2024년 6월 19일6분intermediate

AI 요약

Context

Prezi AI는 사용자 프롬프트를 받아 자동으로 프레젠테이션 초안을 생성하는 복잡한 시스템으로, 여러 서비스와 폐쇄형 모델을 조합해 구성된다. 멀티모달 모델이 빠르게 발전하는 상황에서 방대한 신규 모델 중 실제 유용한 모델을 식별하고 비전 모델, 텍스트 모델, VLM(Vision-Language Model)을 효과적으로 통합하기 위한 전문 지원이 필요했다.

Technical Solution

오픈소스 재랭킹 모델 추가: 프레젠테이션에 최적의 이미지와 텍스트를 LLM보다 저비용으로 더 빠르게 검색하기 위해 Hugging Face 오픈소스 재랭킹 모델을 자산 검색 파이프라인에 통합
멀티모달 모델 스택 구성: 비전 모델, 텍스트 모델, VLM을 조합하여 이미지와 텍스트가 동적으로 결합되는 프레젠테이션 생성 지원
Inference Endpoints 활용: Model Catalog에서 사전 검증된 모델을 선택해 제로 설정으로 배포하고, 자동 슬립 기능으로 미사용 중 비용 최소화
모델 버전 관리 자동화: Git 해시를 활용한 원클릭 업데이트 및 이전 버전 롤백으로 최신 모델 유지
전문가 기반 모델 선택 지원: Expert Support Program의 전담 전문가를 통해 신규 모델 평가, 임베딩·재랭킹·객체 감지 모델 추천 및 비전 언어 모델 파인튜닝 방법 제공

Impact

아티클에서 정량적 성능 지표(레이턴시 감소, 비용 절감 %, 처리량 증가 등)가 명시되지 않았다.

Key Takeaway

ML 엔지니어가 아닌 백엔드 팀이 멀티모달 모델을 활용할 때, 전문가 컨설팅을 통해 적절한 오픈소스 모델(특히 재랭킹 모델)을 식별하고 관리형 Inference 서비스로 배포하면 LLM 의존도를 낮추면서도 검색 품질을 유지할 수 있다.

실천 포인트

이미지·텍스트 자산을 처리하는 프레젠테이션 생성 서비스에서 LLM 기반 재랭킹 대신 경량 오픈소스 재랭킹 모델을 도입하면 응답 속도와 비용 효율을 동시에 개선할 수 있으며, Inference Endpoints의 자동 슬립 기능을 활용하면 유휴 GPU 비용을 절감할 수 있다.

태그

#Multimodal-ML #Inference Endpoints #Hugging Face #Model Ranking

원문 읽기