Google이 Transformer 아키텍처와 MLM(Masked Language Model) 학습 방식을 도입해 11개 이상의 NLP 작업을 단일 모델로 해결

BERT 101 - State Of The Art NLP Model Explained

2022년 3월 2일12분intermediate

AI 요약

Context

기존 NLP 시스템은 각 작업마다 개별 모델을 구축해야 했으며, 컴퓨터는 텍스트 문맥을 이해하지 못해 감정 분석, 개체명 인식 등의 작업 성능이 제한적이었다. 또한 문맥을 단방향으로만 학습하는 방식의 한계가 있었다.

Transformer 아키텍처 도입: 어텐션 메커니즘을 활용해 단어 간 관계를 병렬 처리하여 대규모 데이터 학습을 가능하게 함
MLM(Masked Language Model) 학습 방식 적용: 문장의 임의의 15% 토큰을 [MASK]로 가린 후 양방향 문맥을 사용해 숨겨진 단어를 예측하도록 강제함
NSP(Next Sentence Prediction) 추가 학습: 50% 정상 문장 쌍과 50% 무작위 문장 쌍을 학습해 문장 간 관계 이해도 향상
3.3B 단어 규모 사전학습: Wikipedia(2.5B 단어)와 BooksCorpus(800M 단어) 데이터셋으로 사전학습 수행
TPU 기반 고속 학습: 64개 Google TPU를 사용해 4일간 대규모 모델 학습 완료

2020년 11월 이후 Google 검색 거의 모든 쿼리에서 BERT 적용으로 검색 결과 개선(예: "for someone" 관계 문맥 이해 향상). 파인튜닝 시간: 단일 Cloud TPU에서 1~25분, 단일 GPU에서 1~130분으로 단축.

사전학습-파인튜닝 2단계 접근으로 대규모 미표지 데이터에서 언어 패턴을 학습한 후 소량의 레이블 데이터로 빠르게 특화 모델을 구축 가능한 전이 학습 패러다임을 확립했다.

실천 포인트

NLP 작업을 수행하는 팀에서 BERT 기반 사전학습 모델을 시작점으로 하면, 각 작업별로 별도의 모델 아키텍처를 설계할 필요 없이 감정 분석, 개체명 인식, 질문 답변 등 다양한 작업에 동일 모델을 파인튜닝해 1~130분 내 배포 가능하다.

태그