Hugging Face Transformers를 사용해 XLS-R-300M 모델을 터키어 저리소스 음성인식 데이터셋(4시간)에 미세조정해 CTC 손실함수로 음성-텍스트 변환 모델 구축

Fine-Tune XLSR-Wav2Vec2 for low-resource ASR with 🤗 Transformers

2021년 11월 15일12분intermediate

AI 요약

Context

저리소스 언어(low-resource language)의 음성인식 시스템 구축은 대규모 레이블된 데이터 부족으로 어려움이 있었다. 기존 모델들은 특정 언어에 대해 제한된 성능을 보였으며, 각 언어별로 독립적인 모델을 구축하는 것은 비효율적이었다.

XLS-R-300M 사전학습 모델 도입: 128개 언어 50만 시간의 음성 데이터로 자가지도학습(self-supervised learning)된 모델 활용
마스킹 특성 벡터 기반 사전학습: BERT의 마스킹 언어모델링과 유사하게 랜덤 마스킹된 특성 벡터를 트랜스포머에 통과시켜 문맥 음성 표현 학습
선형 분류층 추가: 사전학습된 네트워크 상단에 단일 선형층을 추가해 음성 표현을 토큰 클래스로 매핑
CTC(Connectionist Temporal Classification) 손실함수 적용: 음성-텍스트 길이 불일치 문제를 해결하기 위해 시퀀스-투-시퀀스 학습에 최적화된 CTC 알고리즘 사용
Wav2Vec2CTCTokenizer와 Wav2Vec2FeatureExtractor 구성: 음성 신호를 모델 입력 형식으로 처리하는 특성 추출기와 모델 출력을 텍스트 전사로 복호화하는 토크나이저 통합
Common Voice 터키어 데이터셋 활용: 검증된 학습 데이터 약 4시간만으로 미세조정 수행
Hugging Face Hub 직접 업로드: 학습 중 모델 체크포인트를 버전 관리와 함께 원격 저장소에 실시간 저장

아티클에서 정량적 성능 수치(정확도, WER 감소율 등)는 명시되지 않았다.

저리소스 언어의 음성인식을 위해서는 다언어 사전학습 모델을 통한 전이학습이 필수적이며, 소량의 데이터(4시간)로도 CTC 기반 미세조정을 통해 실용적인 수준의 음성-텍스트 변환 모델을 구축 가능하다는 점을 보여준다.

실천 포인트

저리소스 언어의 음성인식 시스템을 구축하는 엔지니어는 XLS-R 같은 다언어 사전학습 모델을 선택하고, CTC 손실함수와 Wav2Vec2 토크나이저/특성추출기를 함께 적용하면, 수십 시간 이상의 레이블 데이터 없이도 초기 수준의 음성 이해 모델을 배포할 수 있다.

태그