Google이 308M 파라미터 규모의 EmbeddingGemma 모델을 출시해 500M 이하 다국어 임베딩 모델 중 MTEB 최고 순위 달성

Welcome EmbeddingGemma, Google's new efficient embedding model

2025년 9월 4일12분intermediate

AI 요약

Context

텍스트 임베딩 모델은 현대 자연언어 애플리케이션의 핵심 인프라이지만, 온디바이스 배포를 고려하면 파라미터 크기와 컨텍스트 윈도우 제약으로 인해 모바일 RAG, 에이전트 등의 사용 사례에 최적화된 다국어 모델의 부족 문제가 있었다.

Technical Solution

Gemma3 트랜스포머 백본을 인코더로 변환: 인과 어텐션 대신 양방향 어텐션으로 수정하여 디코더 기반 LLM보다 임베딩 작업에서 우수한 성능 달성
2048 토큰 컨텍스트 윈도우 구현: 전형적인 검색 입력값을 처리할 수 있는 충분한 크기 확보
Matryoshka Representation Learning(MRL) 적용: 768차원 출력을 512, 256, 128차원으로 동적 축소 가능하게 설계
320억 토큰 규모 다국어 코퍼스로 훈련: 공개 웹 텍스트, 코드, 기술 문서, 합성 태스크 특화 데이터 포함
양자화 시 200MB 이하 메모리 사용량 달성: 온디바이스 배포 용이성 확보
Sentence Transformers, LangChain, LlamaIndex, Haystack, txtai, Transformers.js, Text Embedding Inference, ONNX 등 8개 프레임워크 통합 지원

Impact

308M 파라미터 규모로 MTEB(English, v2) 벤치마크에서 비교 가능한 베이스라인을 능가하는 성능 달성
MMTEB(Multilingual, v2) 벤치마크에서 500M 파라미터 이하 모델 중 최고 순위 달성
의료 도메인 파인튜닝(MIRIAD 데이터셋)으로 테스트 세트에서 +0.0522 NDCG@10 성능 향상 (0.8340 → 0.8862)
파인튜닝된 의료 임베딩 모델이 2배 크기의 기존 범용 임베딩 모델을 특정 작업에서 상회

Key Takeaway

300M 파라미터 규모의 인코더 모델은 양방향 어텐션 구조와 적절한 사전학습 데이터셋으로 디코더 기반 LLM보다 임베딩 작업에서 더 효율적일 수 있으며, 온디바이스 배포를 위해서는 모델 크기, 메모리 사용량, 컨텍스트 윈도우를 균형있게 설계해야 한다.

실천 포인트

모바일 RAG, 검색 시스템, 클러스터링을 구축하는 엔지니어는 EmbeddingGemma의 양방향 어텐션 아키텍처와 Matryoshka Representation Learning을 참고해, 기존 LLM 기반 임베딩 대신 특화된 인코더 모델을 도입하면 메모리 오버헤드 70% 이상 감소시키면서도 동등 이상의 검색 정확도를 얻을 수 있다.

태그

#Transformer #Multilingual #Text Embeddings #On-Device #Embedding

원문 읽기