피드로 돌아가기
Train 400x faster Static Embedding Models with Sentence Transformers
Hugging Face BlogHugging Face Blog
AI/ML

Sentence Transformers 라이브러리를 활용한 정적 임베딩 모델 학습으로 CPU 추론 성능을 100~400배 향상

Train 400x faster Static Embedding Models with Sentence Transformers

2025년 1월 15일10intermediate

Context

최신 임베딩 모델(all-mpnet-base-v2, multilingual-e5-small 등)은 높은 품질의 텍스트 표현을 제공하지만, 대규모 attention 기반 인코더로 인해 CPU 환경에서의 추론 속도가 매우 느려 온디바이스 실행, 엣지 컴퓨팅, 저전력 애플리케이션 배포가 어렵다.

Technical Solution

  • attention 기반 인코더 대신 사전 계산된 토큰 임베딩에 의존하는 정적 임베딩(Static Embedding) 아키텍처 도입: 컨텍스트 정보 처리 방식을 단순화하여 추론 속도 대폭 향상
  • 30개 학습 데이터셋과 13개 평가 데이터셋을 선정한 체계적 데이터 전략 수립: 모델 성능과 효율성 간 균형을 맞추기 위해 학습 데이터 구성 최적화
  • 영어 검색(sentence-transformers/static-retrieval-mrl-en-v1)과 다국어 유사도(sentence-transformers/static-similarity-mrl-multilingual-v1) 두 모델 학습: 각각 검색 및 유사도 판단 작업에 특화
  • Sentence Transformers 라이브러리 기반 오픈소스 학습 스크립트 2개 공개: 동료 연구자들이 동일한 방법론으로 추가 모델 학습 가능하도록 재현성 확보
  • Weights and Biases 리포트를 통해 학습 및 평가 메트릭 추적: 모델 개발 과정의 투명성 제공

Impact

CPU 환경에서 기존 모델 대비 100배~400배 빠른 추론 속도 달성

기존 모델 성능의 최소 85% 이상 유지

Key Takeaway

임베딩 모델의 경우 컨텍스트 기반 표현의 정확성과 추론 속도 간 명확한 트레이드오프가 존재하며, 정적 임베딩 아키텍처로 이 균형을 재설정하면 온디바이스/엣지 환경에 적합한 실용적인 모델을 만들 수 있다.


텍스트 임베딩 기반 검색, 유사도 판단, 추천 시스템을 구축하는 팀에서 Sentence Transformers를 사용할 때, 정적 임베딩 모델을 도입하면 CPU 기반 엣지 디바이스나 저전력 서버 환경에서도 기존 모델 대비 85% 이상의 성능을 유지하면서 100~400배 빠른 추론을 실현할 수 있다.

원문 읽기