Sentence Transformers v4가 Cross Encoder 기반 Reranker 모델의 새로운 학습 방식을 도입해 도메인 특화 미세조정으로 일반용 모델 13개를 모두 초과

Training and Finetuning Reranker Models with Sentence Transformers v4

2025년 3월 26일12분intermediate

AI 요약

Context

일반용 Reranker 모델은 광범위한 도메인에서 평균적 성능을 내도록 학습되어 특정 도메인에서 최대 성능을 발휘하지 못한다. Cross Encoder 방식의 Reranker는 모든 텍스트 쌍을 처리해야 하므로 대규모 초기 검색에는 부적합하고, 상위 k개 결과의 재순위 단계에서만 효율적이다.

Technical Solution

Reranker 모델 미세조정을 위한 통합 프레임워크 도입: datasets.Dataset 또는 datasets.DatasetDict 인스턴스를 사용한 학습 및 평가 데이터 관리
손실함수(Loss Function)를 학습 최적화 과정에 통합: 모델 성능을 측정하고 가중치 업데이트 방향을 결정
CrossEncoderTrainer 클래스로 데이터셋, 손실함수, 학습 인자, 평가기를 단일 워크플로우로 결합
GooAQ 데이터셋 99k 쌍으로 ModernBERT-base(150M 파라미터) 모델 학습: RTX 3090에서 30분 소요
평가셋에서 NDCG@10 지표로 성능 측정: 검색 결과의 정확성과 순서를 정량화

Impact

tomaarsen/reranker-ModernBERT-base-gooaq-bce(150M 파라미터)가 모든 1B 이하 일반용 Reranker 13개 모델을 초과, 일부는 자신보다 4배 큰 모델을 능가. tomaarsen/reranker-ModernBERT-large-gooaq-bce는 평가 데이터셋에서 NDCG@10 79.42 달성, 기존 모든 일반용 Reranker 모델을 초과. 학습 전 초기 순위 NDCG@10은 59.12였음.

Key Takeaway

도메인 특화 미세조정은 모델 크기보다 더 큰 성능 향상을 가져올 수 있으며, 검색 스택의 성능과 레이턴시를 동시에 개선할 수 있다. Retrieve-and-rerank 2단계 구조에서 작은 Reranker 모델도 충분히 강력한 결과를 낼 수 있다.

실천 포인트

정보 검색 또는 의미 기반 랭킹 시스템을 구축하는 엔지니어는 Sentence Transformers v4의 CrossEncoderTrainer를 사용해 자신의 도메인 데이터로 Reranker를 미세조정하면, 일반용 대형 모델보다 작은 모델로 더 우수한 NDCG@10 점수를 달성할 수 있다.

태그

#Sentence Transformers #Fine-Tuning #Reranker #Cross Encoder #Information Retrieval

원문 읽기