Ettin Suite가 ModernBERT 레시피를 encoder/decoder 양 아키텍처에 동일하게 적용해 동일 데이터·구조·훈련 방식으로 SoTA 모델 쌍 구축

Ettin Suite: SoTA Paired Encoders and Decoders

2025년 7월 16일10분intermediate

AI 요약

Context

Encoder와 Decoder 아키텍처의 우열 비교가 서로 다른 데이터셋, 아키텍처, 훈련 레시피를 사용해 신뢰성 있는 결론을 내릴 수 없었다. Decoder 기반 모델 개발은 급속 진행되었으나 Encoder 모델 혁신은 정체 상태였다. 공정한 비교를 위한 통제된 실험 환경이 필요했다.

Technical Solution

ModernBERT의 최신 훈련 기법을 Encoder/Decoder 양쪽에 동일하게 적용: 입증된 현대식 아키텍처 컴포넌트 및 최적화 기법 공유
2T 토큰의 완전 공개 데이터로 훈련: 재현 가능성 보장 및 기존 ModernBERT와 달리 폐쇄 데이터 제거
3단계 훈련 프로세스 구현: Phase 1 Pre-training (1.7T 토큰, 1024 길이), Phase 2 Context Extension (250B 토큰, 8K 길이), Phase 3 Decay (100B 토큰, 학습률 감소)
17M~1B 파라미터 범위의 6가지 모델 크기 제공: 온디바이스부터 고성능 모델까지 다양한 사용 사례 지원
양방향 Attention(Encoder)과 인과 Attention(Decoder) 구조만 차별화: 다른 모든 요소 동일하게 유지

Impact

Encoder 모델: 모든 작업과 크기에서 ModernBERT 능가
Decoder 모델: Llama 3.2 1B와 SmolLM2 초과 성능
분류 작업 우월성: 150M Encoder(MNLI 89.2점)가 400M Decoder(88.2점) 능가
지식 집약 작업 강화: SciQ 등에서 고품질 훈련 데이터 혼합의 이점 확인

Key Takeaway

동일한 훈련 데이터·아키텍처·레시피로 Encoder/Decoder 모델을 함께 개발하면 아키텍처 자체의 근본적 장점과 단점을 분리해 측정할 수 있으며, 각 Attention 패턴의 고유 가치(Encoder의 양방향 컨텍스트 이해 vs Decoder의 자동회귀 생성)를 객관적으로 검증할 수 있다.

실천 포인트

분류·검색·임베딩 작업을 구현하는 팀은 자동회귀 Decoder 모델 대신 Encoder 모델을 평가해보면, 동일 파라미터 크기에서 정확도가 더 높고 메모리 및 지연시간 효율이 우월해 프로덕션 배포 시 비용 대비 성능을 높일 수 있다.

태그

#Language Model #ModernBERT #Encoder-Decoder Comparison

원문 읽기