HuggingFace와 IISc가 Vaani 데이터셋을 HuggingFace 플랫폼에 공개하여 인도의 54개 언어, 773개 지역, 80,000명 이상의 화자 데이터에 대한 접근성 확대

HuggingFace, IISc partner to supercharge model building on India's diverse languages

2025년 2월 27일7분intermediate

AI 요약

Context

인도의 언어 다양성을 대표하는 AI 모델 개발이 부족했다. 기존 음성 인식 및 자연어 처리 시스템은 주류 언어에 편중되어 있었으며, 지방의 방언과 소수 언어는 데이터셋 부재로 인해 배제되는 상황이었다.

Technical Solution

Vaani 멀티모달 데이터셋을 HuggingFace에 공개: 790시간의 전사된 오디오, 약 700,000명의 화자 커버, 70,000개 이미지 포함
지역 중심 수집 전략 도입: 773개 지역 전체에서 언어 및 방언 수집 (Phase 1은 80개 지역, Phase 2는 추가 100개 지역 확대)
54개 언어 및 다양한 교육·사회경제적 배경의 화자 포함으로 포용적 AI 모델 학습 데이터 제공
전사 부분집합 별도 공개: 790시간의 전사 오디오로 음성 인식, 언어 모델링, 세분화 작업 지원
코드스위칭(인도 언어와 영어) 주석 추가로 이중언어 자동음성인식(ASR) 모델 개발 가능

Impact

Phase 1 완료로 인도 전역 80개 지역의 데이터 공개 완료, Phase 2 진행으로 최종 100개 지역 추가 예정 (전체 773개 지역 커버 목표).

Key Takeaway

지리적, 언어적, 사회경제적 다양성을 체계적으로 포함한 오픈소스 데이터셋 공개는 소수 언어 음성 기술 개발의 기초가 되며, 음성-텍스트 변환, 화자 식별, 언어 식별, 음성 강화 등 다양한 AI 응용을 가능하게 한다.

실천 포인트

인도의 지역별 음성 기술을 구축하는 AI 개발팀이라면 Vaani 데이터셋의 지역별 언어 분포 정보와 전사 부분집합을 활용하여, 특정 지역의 방언에 최적화된 자동음성인식 모델을 학습할 수 있고, 코드스위칭 주석을 통해 인도 언어와 영어 혼용 상황에 대응하는 모델을 직접 구축할 수 있다.

태그

#Open Source #Language Identification #multilingual-dataset #ASR #Speech Recognition

원문 읽기