Hugging Face Transformers๋ฅผ ์ฌ์ฉํด XLS-R-300M ๋ชจ๋ธ์ ํฐํค์ด ์ ๋ฆฌ์์ค ์์ฑ์ธ์ ๋ฐ์ดํฐ์ (4์๊ฐ)์ ๋ฏธ์ธ์กฐ์ ํด CTC ์์คํจ์๋ก ์์ฑ-ํ ์คํธ ๋ณํ ๋ชจ๋ธ ๊ตฌ์ถ
Fine-Tune XLSR-Wav2Vec2 for low-resource ASR with ๐ค Transformers
AI ์์ฝ
Context
์ ๋ฆฌ์์ค ์ธ์ด(low-resource language)์ ์์ฑ์ธ์ ์์คํ ๊ตฌ์ถ์ ๋๊ท๋ชจ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ด๋ ค์์ด ์์๋ค. ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ํน์ ์ธ์ด์ ๋ํด ์ ํ๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๊ฐ ์ธ์ด๋ณ๋ก ๋ ๋ฆฝ์ ์ธ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๊ฒ์ ๋นํจ์จ์ ์ด์๋ค.
Technical Solution
- XLS-R-300M ์ฌ์ ํ์ต ๋ชจ๋ธ ๋์ : 128๊ฐ ์ธ์ด 50๋ง ์๊ฐ์ ์์ฑ ๋ฐ์ดํฐ๋ก ์๊ฐ์ง๋ํ์ต(self-supervised learning)๋ ๋ชจ๋ธ ํ์ฉ
- ๋ง์คํน ํน์ฑ ๋ฒกํฐ ๊ธฐ๋ฐ ์ฌ์ ํ์ต: BERT์ ๋ง์คํน ์ธ์ด๋ชจ๋ธ๋ง๊ณผ ์ ์ฌํ๊ฒ ๋๋ค ๋ง์คํน๋ ํน์ฑ ๋ฒกํฐ๋ฅผ ํธ๋์คํฌ๋จธ์ ํต๊ณผ์์ผ ๋ฌธ๋งฅ ์์ฑ ํํ ํ์ต
- ์ ํ ๋ถ๋ฅ์ธต ์ถ๊ฐ: ์ฌ์ ํ์ต๋ ๋คํธ์ํฌ ์๋จ์ ๋จ์ผ ์ ํ์ธต์ ์ถ๊ฐํด ์์ฑ ํํ์ ํ ํฐ ํด๋์ค๋ก ๋งคํ
- CTC(Connectionist Temporal Classification) ์์คํจ์ ์ ์ฉ: ์์ฑ-ํ ์คํธ ๊ธธ์ด ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ํ์ค-ํฌ-์ํ์ค ํ์ต์ ์ต์ ํ๋ CTC ์๊ณ ๋ฆฌ์ฆ ์ฌ์ฉ
- Wav2Vec2CTCTokenizer์ Wav2Vec2FeatureExtractor ๊ตฌ์ฑ: ์์ฑ ์ ํธ๋ฅผ ๋ชจ๋ธ ์ ๋ ฅ ํ์์ผ๋ก ์ฒ๋ฆฌํ๋ ํน์ฑ ์ถ์ถ๊ธฐ์ ๋ชจ๋ธ ์ถ๋ ฅ์ ํ ์คํธ ์ ์ฌ๋ก ๋ณตํธํํ๋ ํ ํฌ๋์ด์ ํตํฉ
- Common Voice ํฐํค์ด ๋ฐ์ดํฐ์ ํ์ฉ: ๊ฒ์ฆ๋ ํ์ต ๋ฐ์ดํฐ ์ฝ 4์๊ฐ๋ง์ผ๋ก ๋ฏธ์ธ์กฐ์ ์ํ
- Hugging Face Hub ์ง์ ์ ๋ก๋: ํ์ต ์ค ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ๋ฅผ ๋ฒ์ ๊ด๋ฆฌ์ ํจ๊ป ์๊ฒฉ ์ ์ฅ์์ ์ค์๊ฐ ์ ์ฅ
Impact
์ํฐํด์์ ์ ๋์ ์ฑ๋ฅ ์์น(์ ํ๋, WER ๊ฐ์์จ ๋ฑ)๋ ๋ช ์๋์ง ์์๋ค.
Key Takeaway
์ ๋ฆฌ์์ค ์ธ์ด์ ์์ฑ์ธ์์ ์ํด์๋ ๋ค์ธ์ด ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํตํ ์ ์ดํ์ต์ด ํ์์ ์ด๋ฉฐ, ์๋์ ๋ฐ์ดํฐ(4์๊ฐ)๋ก๋ CTC ๊ธฐ๋ฐ ๋ฏธ์ธ์กฐ์ ์ ํตํด ์ค์ฉ์ ์ธ ์์ค์ ์์ฑ-ํ ์คํธ ๋ณํ ๋ชจ๋ธ์ ๊ตฌ์ถ ๊ฐ๋ฅํ๋ค๋ ์ ์ ๋ณด์ฌ์ค๋ค.
์ค์ฒ ํฌ์ธํธ
์ ๋ฆฌ์์ค ์ธ์ด์ ์์ฑ์ธ์ ์์คํ ์ ๊ตฌ์ถํ๋ ์์ง๋์ด๋ XLS-R ๊ฐ์ ๋ค์ธ์ด ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ ํํ๊ณ , CTC ์์คํจ์์ Wav2Vec2 ํ ํฌ๋์ด์ /ํน์ฑ์ถ์ถ๊ธฐ๋ฅผ ํจ๊ป ์ ์ฉํ๋ฉด, ์์ญ ์๊ฐ ์ด์์ ๋ ์ด๋ธ ๋ฐ์ดํฐ ์์ด๋ ์ด๊ธฐ ์์ค์ ์์ฑ ์ดํด ๋ชจ๋ธ์ ๋ฐฐํฌํ ์ ์๋ค.