ํ”ผ๋“œ๋กœ ๋Œ์•„๊ฐ€๊ธฐ
Fine-Tune W2V2-Bert for low-resource ASR with ๐Ÿค— Transformers
Hugging Face BlogHugging Face Blog
AI/ML

Meta AI๊ฐ€ Wav2Vec2-BERT๋ฅผ ์ €์ž์› ์–ธ์–ด ASR ๋ฏธ์„ธ ์กฐ์ •์œผ๋กœ Whisper ๋Œ€๋น„ 10~30๋ฐฐ ๋น ๋ฅด๊ณ  2.5๋ฐฐ ์ ์€ ๋ฆฌ์†Œ์Šค ์‚ฌ์šฉ ๋‹ฌ์„ฑ

Fine-Tune W2V2-Bert for low-resource ASR with ๐Ÿค— Transformers

2024๋…„ 1์›” 19์ผ12๋ถ„intermediate

Context

Whisper๋Š” ์˜์–ด ASR์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ ๋ชฝ๊ณจ์–ด, ๋ง๋ผ์–„๋žŒ์–ด ๊ฐ™์€ ์ €์ž์› ์–ธ์–ด์—์„œ 100% ์ด์ƒ์˜ ๋‹จ์–ด ์˜ค๋ฅ˜์œจ(WER)์„ ๊ธฐ๋กํ•œ๋‹ค. Whisper์˜ ์ž๋™ํšŒ๊ท€ ์•„ํ‚คํ…์ฒ˜๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋“œ๋ฌธ ์–ธ์–ด์˜ ์ถ”๋ก  ์†๋„๋ฅผ ์ €ํ•˜์‹œํ‚ค๋ฉฐ, ์ œํ•œ๋œ ์–ดํœ˜๋กœ ์ธํ•ด ๊ฒน์น˜์ง€ ์•Š๋Š” ์•ŒํŒŒ๋ฒณ์„ ๊ฐ€์ง„ ์–ธ์–ด ๋ฏธ์„ธ ์กฐ์ •์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค. ์ €์ž์› ํ™˜๊ฒฝ์—์„œ ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ์ถ”๋ก  ๋ฆฌ์†Œ์Šค๊ฐ€ ๋ชจ๋‘ ์ œ์•ฝ๋  ๋•Œ ๋” ํšจ์œจ์ ์ธ ๋ชจ๋ธ์ด ํ•„์š”ํ•˜๋‹ค.

Technical Solution

  • Wav2Vec2-BERT ๋ชจ๋ธ ๋„์ž…: 143๊ฐœ ์–ธ์–ด 4.5M์‹œ๊ฐ„์˜ ๋ ˆ์ด๋ธ” ์—†๋Š” ์˜ค๋””์˜ค๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ 580M ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ ์‚ฌ์šฉ
  • CTC(Connectionist Temporal Classification) ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •: ์‹œํ€€์Šค-ํˆฌ-์‹œํ€€์Šค ๋ฌธ์ œ ํ•™์Šต์šฉ ์‹ ๊ฒฝ๋ง ํ›ˆ๋ จ ๊ธฐ๋ฒ• ์ ์šฉ
  • ํŠน์„ฑ ์ถ”์ถœ๊ธฐ ๋ฐ ํ† ํฌ๋‚˜์ด์ € ๊ตฌ์„ฑ: ์Œ์„ฑ ์‹ ํ˜ธ๋ฅผ ๋ชจ๋ธ ์ž…๋ ฅ ํ˜•์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•
  • CTC ํ† ํฐ๋‹น ์‹ ํ˜ธ ๊ตฌ๊ฐ„ ์ตœ์ ํ™”: ๊ฐ CTC ํ† ํฐ์ด 10~35ms์˜ ์Œํ–ฅ ์ •๋ณด๋ฅผ ๊ด€์ฐฐํ•˜๋„๋ก ์กฐ์ •ํ•˜์—ฌ ์†์‹ค ๊ณก์„  ์•ˆ์ •ํ™”
  • ์ปจ๋ณผ๋ฃจ์…˜ ์–ด๋Œ‘ํ„ฐ ๋ ˆ์ด์–ด ์ถ”๊ฐ€: ์ธ์ฝ”๋” ์€๋‹‰ ์ƒํƒœ๋ฅผ ์‹œ๊ฐ„ ์ถ•์œผ๋กœ ์„œ๋ธŒ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ์‹ ํ˜ธ ์ฒญํฌ ์ƒ˜ํ”Œ๋ง ์ง€์† ์‹œ๊ฐ„ ์กฐ์ •
  • ์›Œ๋ฐ์—… ๋น„์œจ 5~15% ์„ค์ • ๋ฐ ์—ํฌํฌ ์ˆ˜ ํ™•๋Œ€: ํ•™์Šต๋ฅ ์ด ๋„ˆ๋ฌด ๋นจ๋ฆฌ ํ•˜๋ฝํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€
  • AdamW์˜ ฮฒโ‚‚ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ 0.95~0.98๋กœ ์กฐ์ •: ์†์‹ค ๊ณก์„  ํ‰ํƒ„ํ™”๋ฅผ ํ†ตํ•ด ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”

Impact

  • Whisper-large-v3 ๋Œ€๋น„ 10~30๋ฐฐ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„ ๋‹ฌ์„ฑ (16GB V100, ๋ฐฐ์น˜ ํฌ๊ธฐ 1~8, ๋ชฝ๊ณจ์–ด CV16 ํ…Œ์ŠคํŠธ ์„ธํŠธ ๊ธฐ์ค€)
  • Whisper-large-v3์™€ ์œ ์‚ฌํ•œ WER ์„ฑ๋Šฅ ๋‹ฌ์„ฑ (๋ชฝ๊ณจ์–ด ASR ๋ฏธ์„ธ ์กฐ์ • ํ›„)
  • 2.5๋ฐฐ ์ ์€ ๋ฆฌ์†Œ์Šค ์‚ฌ์šฉ์œผ๋กœ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
  • ์ตœ์†Œ 10๋ถ„์˜ ๋ ˆ์ด๋ธ”๋œ ์Œ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ ์กฐ์ • ๊ฐ€๋Šฅ (XLS-R ๊ฒ€์ฆ ๊ธฐ๋ฐ˜)

Key Takeaway

์ €์ž์› ๋‹ค์ค‘ ์–ธ์–ด ASR ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋Š” ๋Œ€๊ทœ๋ชจ ์ž๋™ํšŒ๊ท€ ๋ชจ๋ธ๋ณด๋‹ค ๋‹จ์ผ ํŒจ์Šค ๋น„์ž๋™ํšŒ๊ท€ ๋ชจ๋ธ(Wav2Vec2-BERT)์„ CTC๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์ด ์ถ”๋ก  ์†๋„์™€ ๋ฆฌ์†Œ์Šค ํšจ์œจ์„ฑ์—์„œ ๋” ์œ ๋ฆฌํ•˜๋‹ค. CTC ํ† ํฐ๋‹น ์‹ ํ˜ธ ์ง€์† ์‹œ๊ฐ„, ์›Œ๋ฐ์—… ์Šค์ผ€์ค„, AdamW์˜ ๋ชจ๋ฉ˜ํ…€ ํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •์ด ํ›ˆ๋ จ ์•ˆ์ •์„ฑ์„ ๊ฒฐ์ •ํ•˜๋Š” ํ•ต์‹ฌ ์š”์†Œ๋‹ค.


์ €์ž์› ์–ธ์–ด์˜ ASR ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ•˜๋Š” ํŒ€์€ Whisper ๋Œ€์‹  Wav2Vec2-BERT๋ฅผ Hugging Face Transformers๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•  ๋•Œ, CTC ํ† ํฐ๋‹น ์Œํ–ฅ ์ •๋ณด ๊ตฌ๊ฐ„์„ 10~35ms ๋ฒ”์œ„์— ์œ ์ง€ํ•˜๊ณ  ์›Œ๋ฐ์—… ๋น„์œจ์„ ์ „์ฒด ํ›ˆ๋ จ์˜ 5~15% ๊ตฌ๊ฐ„์— ์„ค์ •ํ•˜๋ฉด ์†์‹ค ๊ณก์„  ์•ˆ์ •์„ฑ์„ ํ™•๋ณดํ•˜๊ณ  ์ถ”๋ก  ์‹œ๊ฐ„์„ 10๋ฐฐ ์ด์ƒ ๋‹จ์ถ•ํ•  ์ˆ˜ ์žˆ๋‹ค.

์›๋ฌธ ์ฝ๊ธฐ