피드로 돌아가기
Dev.toAI/ML
원문 읽기
Fully Connected Layer와 Softmax를 통한 Transformer 출력 토큰 결정 구조
Understanding Transformers Part 17: Generating the Output Word
AI 요약
Context
Decoder의 Residual Connection을 통해 도출된 최종 출력 값을 실제 단어로 변환하는 과정 필요. 단순 수치 데이터를 Vocabulary 크기에 맞는 확률 분포로 매핑하여 최적의 단어를 선택하는 메커니즘 설계 요구.
Technical Solution
- Decoder 출력 값과 Vocabulary 크기를 일치시키기 위한 Fully Connected Layer 도입
- 입력 토큰 수에 대응하는 Input과 Vocabulary 전체 크기에 대응하는 Output 구조 설계
- 확률 분포 산출을 통한 최적 단어 선택을 위해 Softmax 함수 적용
- 문장 종료 시점 식별을 위한 토큰 생성 로직 구현
- 예측된 단어를 다시 Decoder의 입력으로 사용하는 Auto-regressive한 피드백 루프 구성
실천 포인트
1. Output Layer의 노드 수를 Target Vocabulary 크기와 정확히 일치시켰는지 확인
2. Softmax를 통해 산출된 확률 값 중 최대값을 선택하는 Greedy Search 적용 여부 검토
3. 무한 루프 방지를 위한 <end> 토큰 정의 및 생성 조건 설정 확인