Hugging Face Transformers λΌμ΄λΈλ¬λ¦¬λ₯Ό μ¬μ©νμ¬ Wav2Vec2 μ¬μ νμ΅ λͺ¨λΈμ TIMIT λ°μ΄ν°μ (5μκ°)μΌλ‘ νμΈνλν΄ CTC κΈ°λ° μμ΄ μλμμ±μΈμ λͺ¨λΈ ꡬμΆ
Fine-Tune Wav2Vec2 for English ASR in Hugging Face with π€ Transformers
AI μμ½
Context
μ¬μ νμ΅λ μμ± λͺ¨λΈμ νΉμ λλ©μΈ ASR μμ μ λ§μΆ€ννλ €λ©΄ ν ν¬λμ΄μ , νΉμ± μΆμΆκΈ°, CTC μμ€ν¨μ λ± μ¬λ¬ μ»΄ν¬λνΈλ₯Ό ν΅ν©ν΄μΌ νλλ°, μ΄λ₯Ό μν΄μλ Wav2Vec2 μν€ν μ²μ νμΈνλ νμ΄νλΌμΈμ λν μμΈν μ΄ν΄κ° νμνλ€. νΉν μμ± μ νΈλ₯Ό ν μ€νΈλ‘ λ³ννκΈ° μν΄ μ λ ₯ μ²λ¦¬(feature extraction)μ μΆλ ₯ μ²λ¦¬(tokenization)λ₯Ό λμμ ꡬμ±ν΄μΌ νλ€.
Technical Solution
- Wav2Vec2CTCTokenizer μμ±: λ°μ΄ν°μ μ μ¬(transcription) ν μ€νΈμμ μ΄ν(vocabulary) μΆμΆν΄ λͺ¨λΈμ΄ μμΈ‘ν ν ν°μ ν μ€νΈλ‘ λ³ν κ°λ₯νλλ‘ κ΅¬μ±
- Wav2Vec2FeatureExtractor λμ : μμ± μ νΈλ₯Ό λͺ¨λΈ μ λ ₯ νμ(feature vector)μΌλ‘ λ³ννλ μ μ²λ¦¬ λ¨κ³ μ μ©
- μ ν λΆλ₯ λ μ΄μ΄ μΆκ°: μ¬μ νμ΅λ Wav2Vec2μ 컨ν μ€νΈ νν(context representation) μμ ν ν° λΆλ₯μ© μ ν λ μ΄μ΄ λΆμ°©
- CTC(Connectionist Temporal Classification) μμ€ν¨μ μ μ©: μμ±-ν μ€νΈ μνμ€-ν¬-μνμ€ λ§€ν νμ΅μΌλ‘ λ§νκΈ° μλ λΆλ³μ± ν보
- Hugging Face Hub μ§μ μ λ‘λ: νμ΅ μ€ λͺ¨λΈ 체ν¬ν¬μΈνΈλ₯Ό μ€μκ° νΈμνμ¬ λ²μ κ΄λ¦¬ λ° μμ€ λ°©μ§
Impact
μ¬μ νμ΅ λͺ¨λΈμ 10λΆμ λ μ΄λΈλ μμ± λ°μ΄ν°λ§ μ¬μ©νμ λ LibriSpeech ν μ€νΈ μ μμ λ¨μ΄ μ€λ₯μ¨(WER) 5% λ―Έλ§ λ¬μ± κ°λ₯
Key Takeaway
50,000μκ° μ΄μμ λΉλ μ΄λΈ μμ± λ°μ΄ν°λ‘ μ¬μ νμ΅λ λͺ¨λΈμ μλμ λ μ΄λΈ λ°μ΄ν°(5μκ°~10λΆ)λ‘λ μ°μν ASR μ±λ₯μ λ¬μ±ν μ μμΌλ©°, μΈμ΄ λͺ¨λΈ μμ΄ λ 립ν μμ±-μν₯ λͺ¨λΈλ‘ μ’ λ¨κ° ASR μμ€ν μ ꡬμΆν μ μλ€λ κ²μ μ μ¦νλ€.
μ€μ² ν¬μΈνΈ
μμ± μΈμ μμ€ν μ ꡬμΆν΄μΌ νλ μμ§λμ΄κ° Wav2Vec2 μ¬μ νμ΅ μ²΄ν¬ν¬μΈνΈλ₯Ό νμ©νλ©΄, Wav2Vec2FeatureExtractor + Wav2Vec2CTCTokenizer μ‘°ν©μΌλ‘ μ μΆλ ₯ νμ΄νλΌμΈμ ꡬμ±νκ³ CTC μμ€ν¨μλ₯Ό μ μ©ν νμΈνλμ μνν¨μΌλ‘μ¨ λͺ μκ° κ·λͺ¨μ λ μ΄λΈ λ°μ΄ν°λ§μΌλ‘λ μ€μ© μμ€μ ASR λͺ¨λΈμ λ°°ν¬ν μ μλ€.