Hugging Face Transformers๋ฅผ ํ์ฉํด Whisper ๋ชจ๋ธ์ ๋ค๊ตญ์ด ์์ฑ์ธ์ ๋ฐ์ดํฐ์ ์ ํ์ธํ๋ํ๋ ๋จ๊ณ๋ณ ๊ฐ์ด๋ ์ ๊ณต
Fine-Tune Whisper For Multilingual ASR with ๐ค Transformers
AI ์์ฝ
Context
Whisper๋ OpenAI๊ฐ 680,000์๊ฐ์ ๋ ์ด๋ธ ์์ฑ-์ ์ฌ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํ 96๊ฐ ์ด์์ ์ธ์ด๋ฅผ ์ง์ํ๋ ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋ธ์ ๋๋ค. ๊ธฐ์กด Wav2Vec 2.0์ ๋ ์ด๋ธ ์๋ 60,000์๊ฐ ๋ฐ์ดํฐ๋ก๋ง ์ฌ์ ํ์ต๋์ด ์์ฑ-ํ ์คํธ ๋งคํ์ ์ต๋ํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ๋ ๋ง์ ํ์ธํ๋์ด ํ์ํ์ต๋๋ค.
Technical Solution
- Whisper ์ํคํ ์ฒ: ๋ก๊ทธ-๋ฉ ์คํํธ๋ก๊ทธ๋จ์ Transformer ์ธ์ฝ๋๋ก ์ฒ๋ฆฌํ ํ, ๋์ฝ๋๊ฐ ์ธ์ฝ๋ ์จ๊ฒจ์ง ์ํ์ ์ด์ ํ ํฐ์ ์กฐ๊ฑด์ผ๋ก ํ์ฌ ์๋ํ๊ท์ ์ผ๋ก ํ ์คํธ ํ ํฐ ์์ฑ
- ํฌ๋ก์ค์ํธ๋กํผ ์์คํจ์๋ฅผ ์ฌ์ฉํ ์ข ๋จ๊ฐ ํ์ต: ๋์ผํ ํ๋ จ ๋ฐ์ดํฐ์ ์์คํจ์๋ก ์ธ์ฝ๋-๋์ฝ๋ ์ ์ฒด ์์คํ ์ ํ์ต (Deep Fusion ๋ฐฉ์)
- Common Voice ๋ฐ์ดํฐ์ ์ ํ์ฉํ ๋ฐ์ดํฐ ์ค๋น: ํน์ฑ ์ถ์ถ๊ธฐ(Feature Extractor)์ ํ ํฌ๋์ด์ (Tokenizer)๋ก ์ ์ฒ๋ฆฌ
- Hugging Face Hub์์ ์ ๊ณต๋๋ 5๊ฐ์ง ๊ตฌ์ฑ์ ์ฌ์ ํ์ต ์ฒดํฌํฌ์ธํธ ํ์ฉ: ์์ด ์ ์ฉ ๋๋ ๋ค๊ตญ์ด ๋ชจ๋ธ ์ ํ ๊ฐ๋ฅ
- ๐ค Transformers ํ์ดํ๋ผ์ธ๊ณผ Gradio๋ฅผ ํ์ฉํ ๋ํํ ๋ฐ๋ชจ ๊ตฌ์ถ: ๋ง์ดํฌ ์ ๋ ฅ ์์ฑ์ ์ค์๊ฐ์ผ๋ก ์ ์ฌ
Impact
Whisper ์ฌ์ ํ์ต ์ฒดํฌํฌ์ธํธ๋ LibriSpeech ํ ์คํธ-ํด๋ฆฐ ๋ถ๋ถ์งํฉ์์ ์ฝ 3% ๋จ์ด์ค๋ฅ์จ(WER)์ ๋ฌ์ฑํ๊ณ , TED-LIUM์์ 4.7% WER๋ก ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๊ฐฑ์ ํ์ต๋๋ค.
Key Takeaway
Whisper์ 680,000์๊ฐ ๊ท๋ชจ์ ๋ ์ด๋ธ ์์ฑ ๋ฐ์ดํฐ ์ฌ์ ํ์ต์ ์ ์์ ์ธ์ด๋ฅผ ํฌํจํ 96๊ฐ ์ธ์ด์ ๋ํด ์ถ๊ฐ ํ์ธํ๋๋ง์ผ๋ก ๊ฒฝ์๋ ฅ ์๋ ์์ฑ์ธ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋๋ก ํ๋ฉฐ, Deep Fusion ์ํคํ ์ฒ๋ฅผ ํตํ ์ข ๋จ๊ฐ ํ์ต์ด ์ธ์ด ๋ชจ๋ธ์ ๋ด๋ถ ํตํฉ์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
์ค์ฒ ํฌ์ธํธ
๋ค๊ตญ์ด ์์ฑ์ธ์์ด ํ์ํ ํ์์ Hugging Face ๐ค Transformers์ Common Voice ๋ฐ์ดํฐ์ ์ ํ์ฉํด Whisper ๋ชจ๋ธ์ ํ์ธํ๋ํ๋ฉด, ๋ก๊ทธ-๋ฉ ์คํํธ๋ก๊ทธ๋จ ํน์ฑ ์ถ์ถ๊ณผ ํฌ๋ก์ค์ํธ๋กํผ ์์คํจ์ ๊ธฐ๋ฐ ํ์ต์ผ๋ก ์ ์์ ์ธ์ด์ ๋ํด์๋ ๊ฒฝ์๋ ฅ ์๋ ์์ฑ์ธ์ ์์คํ ์ ๊ตฌ์ถํ ์ ์์ต๋๋ค.