Vaswani et al.이 Attention is all you need 논문으로 제시한 Transformer 기반 Encoder-Decoder 아키텍처가 NLP의 표준 시퀀스-투-시퀀스 모델로 정착

Transformer-based Encoder-Decoder Models

2020년 10월 10일12분intermediate

AI 요약

Context

기존 DNN 모델은 고정 길이의 입출력만 처리 가능하여 출력 시퀀스 길이가 입력에 따라 가변적인 자연어 생성(NLG) 작업에 부적합했다. 2014년 RNN 기반 Encoder-Decoder 모델이 이 문제를 해결했으나, 장거리 의존성 학습의 어려움이 있었다.

Technical Solution

Encoder 구성: 입력 시퀀스 X₁:ₙ을 순차적으로 처리하여 최종 은닉 상태 c로 변환하는 구조
Decoder 구성: 인코더의 은닉 상태 c로 초기화한 후 자동회귀(auto-regressive) 방식으로 출력 시퀀스 Y₁:ₘ을 토큰 단위로 생성
Self-Attention 메커니즘 도입: RNN의 순차 처리 방식을 병렬 처리 가능한 attention 기반으로 변경
Encoder-Decoder 간 Cross-Attention: Encoder 출력이 Decoder의 각 디코딩 스텝에서 컨텍스트로 활용되는 구조
가변 길이 출력 지원: 모델이 입력 시퀀스의 내용에 따라 자동으로 출력 길이를 결정

Key Takeaway

Transformer 기반 Encoder-Decoder 아키텍처는 RNN의 순차 처리 제약을 제거하면서도 입력-출력 간 의존성을 효과적으로 모델링하여 NLG 작업의 표준 아키텍처로 정립되었으며, 이후 T5, BART, Pegasus 등의 사전학습 방식 개선 연구도 이 기본 아키텍처 위에서 진행되었다.

실천 포인트

NLG 작업(기계번역, 요약, 질의응답)을 구현하는 엔지니어는 🤗Transformers 라이브러리의 T5, BART, MarianMT, Pegasus 중 하나를 선택하여 사용할 때, Encoder에서 입력 임베딩 생성 → Decoder에서 BOS 토큰부터 시작하여 각 스텝마다 가장 높은 확률의 토큰을 그리디하게 샘플링하는 인퍼런스 파이프라인을 통해 기존 RNN 모델 대비 더 빠른 병렬 처리와 더 나은 장거리 의존성 학습을 활용할 수 있다.

태그

#Sequence-to-Sequence #Transformer #Encoder-Decoder #Attention #NLP

원문 읽기