ํ”ผ๋“œ๋กœ ๋Œ์•„๊ฐ€๊ธฐ
Fine-Tune XLSR-Wav2Vec2 for low-resource ASR with ๐Ÿค— Transformers
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face Transformers๋ฅผ ์‚ฌ์šฉํ•ด XLS-R-300M ๋ชจ๋ธ์„ ํ„ฐํ‚ค์–ด ์ €๋ฆฌ์†Œ์Šค ์Œ์„ฑ์ธ์‹ ๋ฐ์ดํ„ฐ์…‹(4์‹œ๊ฐ„)์— ๋ฏธ์„ธ์กฐ์ •ํ•ด CTC ์†์‹คํ•จ์ˆ˜๋กœ ์Œ์„ฑ-ํ…์ŠคํŠธ ๋ณ€ํ™˜ ๋ชจ๋ธ ๊ตฌ์ถ•

Fine-Tune XLSR-Wav2Vec2 for low-resource ASR with ๐Ÿค— Transformers

2021๋…„ 11์›” 15์ผ12๋ถ„intermediate

Context

์ €๋ฆฌ์†Œ์Šค ์–ธ์–ด(low-resource language)์˜ ์Œ์„ฑ์ธ์‹ ์‹œ์Šคํ…œ ๊ตฌ์ถ•์€ ๋Œ€๊ทœ๋ชจ ๋ ˆ์ด๋ธ”๋œ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์œผ๋กœ ์–ด๋ ค์›€์ด ์žˆ์—ˆ๋‹ค. ๊ธฐ์กด ๋ชจ๋ธ๋“ค์€ ํŠน์ • ์–ธ์–ด์— ๋Œ€ํ•ด ์ œํ•œ๋œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ๊ฐ ์–ธ์–ด๋ณ„๋กœ ๋…๋ฆฝ์ ์ธ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์€ ๋น„ํšจ์œจ์ ์ด์—ˆ๋‹ค.

Technical Solution

  • XLS-R-300M ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ ๋„์ž…: 128๊ฐœ ์–ธ์–ด 50๋งŒ ์‹œ๊ฐ„์˜ ์Œ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ์ž๊ฐ€์ง€๋„ํ•™์Šต(self-supervised learning)๋œ ๋ชจ๋ธ ํ™œ์šฉ
  • ๋งˆ์Šคํ‚น ํŠน์„ฑ ๋ฒกํ„ฐ ๊ธฐ๋ฐ˜ ์‚ฌ์ „ํ•™์Šต: BERT์˜ ๋งˆ์Šคํ‚น ์–ธ์–ด๋ชจ๋ธ๋ง๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋žœ๋ค ๋งˆ์Šคํ‚น๋œ ํŠน์„ฑ ๋ฒกํ„ฐ๋ฅผ ํŠธ๋žœ์Šคํฌ๋จธ์— ํ†ต๊ณผ์‹œ์ผœ ๋ฌธ๋งฅ ์Œ์„ฑ ํ‘œํ˜„ ํ•™์Šต
  • ์„ ํ˜• ๋ถ„๋ฅ˜์ธต ์ถ”๊ฐ€: ์‚ฌ์ „ํ•™์Šต๋œ ๋„คํŠธ์›Œํฌ ์ƒ๋‹จ์— ๋‹จ์ผ ์„ ํ˜•์ธต์„ ์ถ”๊ฐ€ํ•ด ์Œ์„ฑ ํ‘œํ˜„์„ ํ† ํฐ ํด๋ž˜์Šค๋กœ ๋งคํ•‘
  • CTC(Connectionist Temporal Classification) ์†์‹คํ•จ์ˆ˜ ์ ์šฉ: ์Œ์„ฑ-ํ…์ŠคํŠธ ๊ธธ์ด ๋ถˆ์ผ์น˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์‹œํ€€์Šค-ํˆฌ-์‹œํ€€์Šค ํ•™์Šต์— ์ตœ์ ํ™”๋œ CTC ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์‚ฌ์šฉ
  • Wav2Vec2CTCTokenizer์™€ Wav2Vec2FeatureExtractor ๊ตฌ์„ฑ: ์Œ์„ฑ ์‹ ํ˜ธ๋ฅผ ๋ชจ๋ธ ์ž…๋ ฅ ํ˜•์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ํŠน์„ฑ ์ถ”์ถœ๊ธฐ์™€ ๋ชจ๋ธ ์ถœ๋ ฅ์„ ํ…์ŠคํŠธ ์ „์‚ฌ๋กœ ๋ณตํ˜ธํ™”ํ•˜๋Š” ํ† ํฌ๋‚˜์ด์ € ํ†ตํ•ฉ
  • Common Voice ํ„ฐํ‚ค์–ด ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ: ๊ฒ€์ฆ๋œ ํ•™์Šต ๋ฐ์ดํ„ฐ ์•ฝ 4์‹œ๊ฐ„๋งŒ์œผ๋กœ ๋ฏธ์„ธ์กฐ์ • ์ˆ˜ํ–‰
  • Hugging Face Hub ์ง์ ‘ ์—…๋กœ๋“œ: ํ•™์Šต ์ค‘ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ๋ฒ„์ „ ๊ด€๋ฆฌ์™€ ํ•จ๊ป˜ ์›๊ฒฉ ์ €์žฅ์†Œ์— ์‹ค์‹œ๊ฐ„ ์ €์žฅ

Impact

์•„ํ‹ฐํด์—์„œ ์ •๋Ÿ‰์  ์„ฑ๋Šฅ ์ˆ˜์น˜(์ •ํ™•๋„, WER ๊ฐ์†Œ์œจ ๋“ฑ)๋Š” ๋ช…์‹œ๋˜์ง€ ์•Š์•˜๋‹ค.

Key Takeaway

์ €๋ฆฌ์†Œ์Šค ์–ธ์–ด์˜ ์Œ์„ฑ์ธ์‹์„ ์œ„ํ•ด์„œ๋Š” ๋‹ค์–ธ์–ด ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์„ ํ†ตํ•œ ์ „์ดํ•™์Šต์ด ํ•„์ˆ˜์ ์ด๋ฉฐ, ์†Œ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ(4์‹œ๊ฐ„)๋กœ๋„ CTC ๊ธฐ๋ฐ˜ ๋ฏธ์„ธ์กฐ์ •์„ ํ†ตํ•ด ์‹ค์šฉ์ ์ธ ์ˆ˜์ค€์˜ ์Œ์„ฑ-ํ…์ŠคํŠธ ๋ณ€ํ™˜ ๋ชจ๋ธ์„ ๊ตฌ์ถ• ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์„ ๋ณด์—ฌ์ค€๋‹ค.


์ €๋ฆฌ์†Œ์Šค ์–ธ์–ด์˜ ์Œ์„ฑ์ธ์‹ ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•˜๋Š” ์—”์ง€๋‹ˆ์–ด๋Š” XLS-R ๊ฐ™์€ ๋‹ค์–ธ์–ด ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์„ ์„ ํƒํ•˜๊ณ , CTC ์†์‹คํ•จ์ˆ˜์™€ Wav2Vec2 ํ† ํฌ๋‚˜์ด์ €/ํŠน์„ฑ์ถ”์ถœ๊ธฐ๋ฅผ ํ•จ๊ป˜ ์ ์šฉํ•˜๋ฉด, ์ˆ˜์‹ญ ์‹œ๊ฐ„ ์ด์ƒ์˜ ๋ ˆ์ด๋ธ” ๋ฐ์ดํ„ฐ ์—†์ด๋„ ์ดˆ๊ธฐ ์ˆ˜์ค€์˜ ์Œ์„ฑ ์ดํ•ด ๋ชจ๋ธ์„ ๋ฐฐํฌํ•  ์ˆ˜ ์žˆ๋‹ค.

์›๋ฌธ ์ฝ๊ธฐ