Hugging Face Transformers๊ฐ pyctcdecode ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํฉํ์ฌ Wav2Vec2 ์์ฑ์ธ์ ๋ชจ๋ธ์ n-gram ์ธ์ด๋ชจ๋ธ์ ๊ฒฐํฉํ ๋์ฝ๋ฉ ๋ฐฉ์ ์ ๊ณต์ผ๋ก WER 30% ์๋ ์ฑ๋ฅ ํฅ์
Boosting Wav2Vec2 with n-grams in ๐ค Transformers
AI ์์ฝ
Context
Wav2Vec2๋ CTC ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด ์ธ๋ถ ์ธ์ด๋ชจ๋ธ ์์ด๋ ์์ฑ์ ํ ์คํธ๋ก ๋ณํํ ์ ์์ง๋ง, ๊ณต์ ๋ ผ๋ฌธ Appendix C์์ ์ธ์ด๋ชจ๋ธ ๊ฒฐํฉ ์ ํนํ 10๋ถ ๋ถ๋์ ํ์ต ๋ฐ์ดํฐ๋ง ์ฌ์ฉํ ๊ฒฝ์ฐ ์ฑ๋ฅ์ด ์ ์๋ฏธํ๊ฒ ํฅ์๋จ์ ๋ณด์ฌ์ฃผ์๋ค. Hugging Face Transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์ด์ ๊น์ง ํ์ธํ๋๋ Wav2Vec2 ๋ชจ๋ธ๊ณผ ์ธ์ด๋ชจ๋ธ์ ํจ๊ป ์ฌ์ฉํ๋ ๊ฐ๋จํ ์ธํฐํ์ด์ค๋ฅผ ์ ๊ณตํ์ง ์์๋ค.
Technical Solution
- Kensho Technologies์ pyctcdecode ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ Transformers์ ํตํฉํ์ฌ ์ธ์ด๋ชจ๋ธ ๋์ฝ๋ฉ ๊ธฐ๋ฅ ์ถ๊ฐ
- KenLM์ ์ฌ์ฉํด ํ์ต ๋ฐ์ดํฐ๋ก๋ถํฐ n-gram ์ธ์ด๋ชจ๋ธ(5-gram) ๊ตฌ์ถ
- Wav2Vec2Processor์ batch_decode() ๋ฉ์๋์์ ๋์ฝ๋ ๊ฐ์ฒด๋ฅผ ์ธ์๋ก ๋ฐ์ LM-๋ถ์คํ ๋ ๋์ฝ๋ฉ ์คํ
- Hugging Face Hub์ ๋ชจ๋ธ ์นด๋์ 5-gram ์ธ์ด๋ชจ๋ธ ํ์ผ์ Git LFS๋ฅผ ํตํด ์ ๋ก๋(1.85GB)
- ํ์ธํ๋๋ Wav2Vec2 ์ฒดํฌํฌ์ธํธ ์์ ํ์ต๋ ์ธ์ด๋ชจ๋ธ์ ์คํํ์ฌ ์์ฑ ์ํ์ค ๋์ฝ๋ฉ ์ํ
Impact
- Common Voice 7 ํ ์คํธ์ ์์ WER(๋จ์ด ์ค๋ฅ์จ) 18.85% ๋ฌ์ฑ์ผ๋ก ์๋ ์ฑ๋ฅ ์ฝ 30% ํฅ์
Key Takeaway
์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ปจํ ์คํธ ์ธ์ ๋ฅ๋ ฅ๋ง์ผ๋ก๋ ๋ถ์กฑํ ์์ฑ์ธ์ ์์ ์์ ์ฌํ ์ฒ๋ฆฌ ๋จ๊ณ์ ๊ฒฝ๋ n-gram ์ธ์ด๋ชจ๋ธ์ ์ถ๊ฐํ๋ฉด ์๋นํ ์ฑ๋ฅ ๊ฐ์ ์ ๋ฌ์ฑํ ์ ์์ผ๋ฉฐ, ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์์ค์ ํ์คํ๋ ์ธํฐํ์ด์ค ์ ๊ณต์ด ์ด๋ฌํ ๊ธฐ๋ฒ์ ์ค๋ฌด ์ ์ฉ์ ์ด์งํ๋ค.
์ค์ฒ ํฌ์ธํธ
Wav2Vec2 ๊ธฐ๋ฐ ์์ฑ์ธ์ ์์คํ ์ ๊ตฌ์ถํ๋ ์์ง๋์ด๋ ์ต์ 10๋ถ ๋ถ๋์ ์ ์ฌ ๋ฐ์ดํฐ๊ฐ ์์ ๋ KenLM์ผ๋ก n-gram ์ธ์ด๋ชจ๋ธ์ ๊ตฌ์ถํ๊ณ pyctcdecode๋ฅผ ํตํด Wav2Vec2 ๋ชจ๋ธ๊ณผ ๊ฒฐํฉํ๋ฉด ์ธ๋ถ ์ธ์ด๋ชจ๋ธ ์๋ฒ ์์ด๋ 30% ์์ค์ ๋จ์ด ์ค๋ฅ์จ ๊ฐ์๋ฅผ ๊ธฐ๋ํ ์ ์๋ค.