Hugging Face Transformers 라이브러리를 사용하여 Wav2Vec2 사전학습 모델을 TIMIT 데이터셋(5시간)으로 파인튜닝해 CTC 기반 영어 자동음성인식 모델 구축

Fine-Tune Wav2Vec2 for English ASR in Hugging Face with 🤗 Transformers

2021년 3월 12일12분intermediate

AI 요약

Context

사전학습된 음성 모델을 특정 도메인 ASR 작업에 맞춤화하려면 토크나이저, 특성 추출기, CTC 손실함수 등 여러 컴포넌트를 통합해야 하는데, 이를 위해서는 Wav2Vec2 아키텍처와 파인튜닝 파이프라인에 대한 상세한 이해가 필요하다. 특히 음성 신호를 텍스트로 변환하기 위해 입력 처리(feature extraction)와 출력 처리(tokenization)를 동시에 구성해야 한다.

Technical Solution

Wav2Vec2CTCTokenizer 생성: 데이터셋 전사(transcription) 텍스트에서 어휘(vocabulary) 추출해 모델이 예측한 토큰을 텍스트로 변환 가능하도록 구성
Wav2Vec2FeatureExtractor 도입: 음성 신호를 모델 입력 형식(feature vector)으로 변환하는 전처리 단계 적용
선형 분류 레이어 추가: 사전학습된 Wav2Vec2의 컨텍스트 표현(context representation) 위에 토큰 분류용 선형 레이어 부착
CTC(Connectionist Temporal Classification) 손실함수 적용: 음성-텍스트 시퀀스-투-시퀀스 매핑 학습으로 말하기 속도 불변성 확보
Hugging Face Hub 직접 업로드: 학습 중 모델 체크포인트를 실시간 푸시하여 버전 관리 및 손실 방지

Impact

사전학습 모델에 10분의 레이블된 음성 데이터만 사용했을 때 LibriSpeech 테스트 셋에서 단어 오류율(WER) 5% 미만 달성 가능

Key Takeaway

50,000시간 이상의 비레이블 음성 데이터로 사전학습된 모델은 소량의 레이블 데이터(5시간~10분)로도 우수한 ASR 성능을 달성할 수 있으며, 언어 모델 없이 독립형 음성-음향 모델로 종단간 ASR 시스템을 구축할 수 있다는 것을 입증한다.

실천 포인트

음성 인식 시스템을 구축해야 하는 엔지니어가 Wav2Vec2 사전학습 체크포인트를 활용하면, Wav2Vec2FeatureExtractor + Wav2Vec2CTCTokenizer 조합으로 입출력 파이프라인을 구성하고 CTC 손실함수를 적용한 파인튜닝을 수행함으로써 몇 시간 규모의 레이블 데이터만으로도 실용 수준의 ASR 모델을 배포할 수 있다.

태그

#Fine-Tuning #CTC #Transformers #Wav2Vec2 #ASR

원문 읽기