Hugging Face Transformers와 Datasets 라이브러리를 조합해 ViT 모델로 이미지 임베딩(768차원)을 생성하고 코사인 유사도로 역이미지 검색 시스템 구축

Image Similarity with Hugging Face Datasets and Transformers

2023년 1월 16일12분intermediate

AI 요약

Context

이미지 간 유사도를 판단해야 하는 역이미지 검색 같은 정보 검색 시스템에서는 고차원 픽셀 공간(224×224×3)에서 직접 유사도를 계산하면 계산 비용이 높다. 대규모 후보 이미지 집합 대상으로 쿼리 이미지와의 유사도를 빠르게 찾아야 하는 과제가 있다.

Technical Solution

AutoImageProcessor와 AutoModel을 사용해 fine-tuned ViT 모델(nateraw/vit-base-beans) 로드: 이미지 전처리 및 인코딩을 자동으로 처리
후보 이미지를 768차원 밀집 벡터(dense embeddings)로 변환: 고차원 픽셀 공간을 낮은 차원으로 압축해 계산 시간 단축
Datasets 라이브러리의 map() 함수로 후보 이미지셋의 임베딩을 병렬 처리: Beans 데이터셋의 100개 샘플에 대해 효율적 임베딩 계산
쿼리 이미지 임베딩과 후보 임베딩 간 코사인 유사도 점수 계산: 임베딩 행렬을 순회하며 유사도 매핑 생성
FAISS 인덱스 통합(add_faiss_index())을 통한 최근접 이웃 검색: get_nearest_examples()로 상위 k개 유사 이미지 및 점수 반환
랜덤 프로젝션과 locality-sensitive hashing으로 임베딩 차원 감소: 고차원 임베딩의 계산 오버헤드를 추가로 감소

Key Takeaway

이미지 검색 시스템 구축 시 fine-tuned 비전 모델로 임베딩을 생성한 후 FAISS 같은 벡터 인덱싱 라이브러리를 통합하면, 저수준 유사도 연산 대신 고차원 벡터 검색으로 성능과 속도의 균형을 맞출 수 있다. 다른 모달리티(텍스트, 오디오)나 모델(CLIP 등)로도 동일 아키텍처 확장이 가능한 범용 설계 원칙을 제시한다.

실천 포인트

이미지 유사도 검색을 구현하는 엔지니어가 Hugging Face Hub에서 도메인 특화 fine-tuned 모델을 선택하고, Datasets의 병렬 처리로 후보 임베딩을 사전 계산한 후, FAISS 인덱스로 쿼리 시점의 nearest neighbor 검색을 수행하면 단순 코사인 유사도 계산 대비 대규모 이미지 셋에서 지연 시간을 크게 단축할 수 있다.

태그

#Vision Transformer #Transformers #Image-Similarity #FAISS #Embeddings

원문 읽기