피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Meta AI의 MMS 모델이 Adapter 계층 방식으로 10~20분의 파인튜닝만으로 저자원 언어 ASR에서 최고 성능 달성
Fine-Tune MMS Adapter Models for low-resource ASR
AI 요약
Context
기존 XLS-R 파인튜닝 방식은 전체 모델 가중치를 학습해야 하므로 저자원 언어에서 메모리 비효율적이고 계산 비용이 높으며, 1000개 이상의 서로 다른 어휘 구조에 적응하기 어려웠다.
Technical Solution
- MMS 모델에 Adapter 계층 도입: 전체 모델 가중치를 고정하고 각 언어별로 약 2.5M 가중치의 소규모 선형 프로젝션 계층만 학습
- 언어별 독립적인 Adapter 가중치 관리: 102개, 1107개, 1162개의 언어별 Adapter 파일(예: adapter.fra.safetensors)을 별도로 저장
- 자기지도 학습으로 사전학습: 1400개 이상의 언어에서 50만 시간 이상의 음성으로 마스크된 특성 벡터 학습
- 감독 학습으로 세밀 조정: 1000개 이상 언어의 공동 어휘 출력 계층으로 파인튜닝 후 언어별 Adapter 계층만 유지
- 런타임 언어 전환: model.load_adapter() 호출과 토크나이저 변경으로 언어 간 빠른 전환(Turkish에서 Swedish로 변경 시연)
Impact
파인튜닝 시간 10~20분으로 단축, 저자원 언어에서 전체 모델 파인튜닝 대비 메모리 효율성 향상 및 성능 개선, Turkish 테스트셋에서 거의 정확한 전사 달성(Turkish 샘플: "pekçoğuda roman toplumundan geliyor"), Swedish 테스트셋에서 완벽한 전사 달성("jag lämnade grovjobbet åt honom")
Key Takeaway
Adapter 계층은 대규모 사전학습 모델의 작은 부분만 학습하므로 저자원 환경에서 전체 모델 재학습보다 메모리 효율적이고 빠르며, 단일 기본 모델에서 1000개 이상의 언어별 전문화된 가중치를 관리할 수 있는 확장성 높은 다중언어 시스템 설계의 참고사례다.
실천 포인트
저자원 언어의 음성인식 시스템을 구축하는 엔지니어는 MMS의 Adapter 계층 방식을 도입하면 전체 모델 파인튜닝 대비 메모리 비용을 획기적으로 줄이면서 10~20분의 최소한의 파인튜닝으로 프로덕션 수준의 성능을 달성할 수 있으며, model.load_adapter()로 런타임 언어 전환이 가능해 단일 모델로 다중언어 지원이 가능하다.