Sentence Transformers 라이브러리를 활용한 정적 임베딩 모델 학습으로 CPU 추론 성능을 100~400배 향상

Train 400x faster Static Embedding Models with Sentence Transformers

2025년 1월 15일10분intermediate

AI 요약

Context

최신 임베딩 모델(all-mpnet-base-v2, multilingual-e5-small 등)은 높은 품질의 텍스트 표현을 제공하지만, 대규모 attention 기반 인코더로 인해 CPU 환경에서의 추론 속도가 매우 느려 온디바이스 실행, 엣지 컴퓨팅, 저전력 애플리케이션 배포가 어렵다.

Technical Solution

attention 기반 인코더 대신 사전 계산된 토큰 임베딩에 의존하는 정적 임베딩(Static Embedding) 아키텍처 도입: 컨텍스트 정보 처리 방식을 단순화하여 추론 속도 대폭 향상
30개 학습 데이터셋과 13개 평가 데이터셋을 선정한 체계적 데이터 전략 수립: 모델 성능과 효율성 간 균형을 맞추기 위해 학습 데이터 구성 최적화
영어 검색(sentence-transformers/static-retrieval-mrl-en-v1)과 다국어 유사도(sentence-transformers/static-similarity-mrl-multilingual-v1) 두 모델 학습: 각각 검색 및 유사도 판단 작업에 특화
Sentence Transformers 라이브러리 기반 오픈소스 학습 스크립트 2개 공개: 동료 연구자들이 동일한 방법론으로 추가 모델 학습 가능하도록 재현성 확보
Weights and Biases 리포트를 통해 학습 및 평가 메트릭 추적: 모델 개발 과정의 투명성 제공

Impact

CPU 환경에서 기존 모델 대비 100배~400배 빠른 추론 속도 달성

기존 모델 성능의 최소 85% 이상 유지

Key Takeaway

임베딩 모델의 경우 컨텍스트 기반 표현의 정확성과 추론 속도 간 명확한 트레이드오프가 존재하며, 정적 임베딩 아키텍처로 이 균형을 재설정하면 온디바이스/엣지 환경에 적합한 실용적인 모델을 만들 수 있다.

실천 포인트

텍스트 임베딩 기반 검색, 유사도 판단, 추천 시스템을 구축하는 팀에서 Sentence Transformers를 사용할 때, 정적 임베딩 모델을 도입하면 CPU 기반 엣지 디바이스나 저전력 서버 환경에서도 기존 모델 대비 85% 이상의 성능을 유지하면서 100~400배 빠른 추론을 실현할 수 있다.

태그

#Model optimization #Static Embeddings #Sentence Transformers #CPU Performance

원문 읽기