Answer.AI와 LightOn이 BERT의 아키텍처와 훈련 방식을 LLM 최신 기법으로 개선하여 ModernBERT 출시, 8192 시퀀스 길이와 기존 BERT 대비 향상된 다운스트림 성능 달성

Finally, a Replacement for BERT: Introducing ModernBERT

2024년 12월 19일10분intermediate

AI 요약

Context

BERT는 2018년 출시 이후 6년간 엔코더 전용 모델로서 검색, 분류, 엔티티 추출 등의 실무 응용에 광범위하게 사용되고 있으나, 최신 디코더 전용 모델들의 기술 혁신이 엔코더 분야에는 충분히 반영되지 못했다. 일반적으로 BERT 기반 모델들은 512 토큰 시퀀스 길이 제약, 상대적으로 느린 처리 속도, 그리고 더 나은 다운스트림 태스크 성능을 위한 개선의 필요성을 안고 있었다.

Technical Solution

아키텍처 현대화: GPT, Llama, Claude 등 디코더 전용 모델에서 검증된 최신 기법들을 엔코더 전용 구조에 적용
시퀀스 길이 확장: 기존 512 토큰 제약에서 8192 토큰 컨텍스트 길이로 증대하여 전문 문서 기반 검색 및 대규모 코드 검색 활용 지원
코드 데이터 통합: 첫 엔코더 전용 모델로서 훈련 데이터에 대규모 코드 포함, 코드 유사성 검색 및 IDE 기능 등 신규 응용 분야 개척
토큰 타입 ID 제거: 기존 BERT와 달리 토큰 타입 ID를 사용하지 않아 다운스트림 파인튜닝 시 매개변수 간소화
가중치 초기화 최적화: ModernBERT-large 모델 훈련 시 무작위 초기화 대신 ModernBERT-base 가중치를 타일링(tiling)하여 사용, 배치 크기 워밍업과 함께 초기 훈련 속도 가속화
Flash Attention 2 지원: GPU 성능에 맞춰 선택적으로 Flash Attention 2 라이브러리 활용으로 연산 효율성 극대화

Impact

ModernBERT는 다운스트림 성능에서 기존 모델들 대비 파레토 개선(Pareto improvement)을 달성하였으며, 처리 속도에서도 개선되었다.

Key Takeaway

엔코더 전용 모델이 실무의 검색, 분류, 엔티티 추출 같은 판별 태스크에서 필수적임을 감안할 때, 디코더 전용 거대 모델에서 검증된 최신 아키텍처와 훈련 기법을 선택적으로 역이식하면 크기, 속도, 정확도 간 균형을 혁신적으로 개선할 수 있다.

실천 포인트

RAG, 검색 기반 추천 시스템, 콘텐츠 분류 및 준수 감시를 구축하는 엔지니어들은 ModernBERT를 기존 BERT 기반 모델과 동일한 파인튜닝 레시피로 교체 가능하면서도 8192 토큰 컨텍스트와 코드 검색 능력을 새로이 활용할 수 있으며, Flash Attention 2 설치로 GPU 환경에서 추론 효율을 극대화할 수 있다.

태그

#Language Model #Transfer Learning #Encoder-only #BERT #Architecture Design

원문 읽기