Microsoft Research Asia가 단일 Transformer 인코더-디코더 아키텍처에 pre-net/post-net을 추가하여 음성-텍스트 변환(ASR, TTS), 음성-음성 변환을 하나의 모델으로 수행 가능하게 구현
Speech Synthesis, Recognition, and More With SpeechT5
Speech Synthesis, Recognition, and More With SpeechT5
Pre-Train BERT with Hugging Face Transformers and Habana Gaudi