피드로 돌아가기
Dev.toAI/ML
원문 읽기
33억 단어 Pretraining 기반 Bidirectional Encoder 통한 NLP SOTA 달성
81. BERT: Understanding Language Deeply
AI 요약
Context
단순 키워드 매칭 방식의 검색 엔진이 가진 문맥 파악 불가 한계 직면. 특히 다의어 처리와 복잡한 구문 해석 시 Context를 반영하지 못해 검색 정확도 저하 문제 발생.
Technical Solution
- Transformer Encoder 구조 채택을 통한 양방향(Bidirectional) 문맥 이해 설계
- 15% 토큰을 무작위로 가린 Masked Language Model(MLM) 기법으로 Self-supervised Learning 구현
- 두 문장의 인접 여부를 판별하는 Next Sentence Prediction(NSP) 도입을 통한 문장 간 관계 학습
- 33억 개의 단어로 대규모 Pretraining 후 소량의 Label 데이터로 특정 Task에 최적화하는 Fine-tuning 전략 적용
- [CLS] 토큰의 Embedding을 활용하여 문장 전체의 의미를 대표하는 고차원 벡터 추출 구조 설계
실천 포인트
1. Task 특성에 따라 BERT-base(110M)와 BERT-large(340M) 등 모델 파라미터 규모 선택
2. 문맥 이해가 필수적인 분류 Task의 경우 [CLS] 토큰 기반의 Feature Extraction 검토
3. 데이터 라벨링 비용 절감을 위해 MLM 기반의 Self-supervised 학습 가능 여부 확인
4. 추론 속도 최적화가 필요할 경우 DistilBERT 등 경량화 모델 도입 고려