0.07초 지연시간 달성한 600M 파라미터 다국어 Streaming ASR 설계

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

2026년 6월 4일10분advanced

AI 요약

Context

기존 Streaming ASR의 오버랩 윈도우 재계산으로 인한 높은 연산 비용과 지연시간 발생. 다국어 지원을 위한 모델 개별 배포 및 구두점 복원 모델의 추가 연결로 인한 파이프라인 복잡도 증가.

Cache-Aware FastConformer 구조 도입을 통한 이전 프레임의 Self-attention 및 Convolution 활성화 값 캐싱
중복 연산을 제거하고 신규 오디오 프레임만 처리하는 Single-pass 연산 구조 설계
RNNT Decoder 채택으로 오디오 스트림 입력과 동시에 프레임 단위 텍스트 생성 구현
Prompt-based Language-ID Conditioning 설계를 통한 단일 가중치 모델 내 다국어 특화 출력 제어
구두점 및 대소문자 처리 로직의 모델 내장으로 별도 후처리 파이프라인 제거
target_lang 설정을 통한 명시적 언어 지정 및 auto 모드를 통한 동적 언어 감지 기능 제공

실천 포인트

1. Streaming ASR 설계 시 슬라이딩 윈도우 방식의 재계산 비용을 분석하고 캐싱 전략 검토

2. 다국어 서비스 구축 시 개별 모델 배포 대신 Language-ID Conditioning 기반의 단일 모델 가능성 타진

3. 후처리 파이프라인(구두점 등)의 단계적 결합보다 End-to-End 모델 학습을 통한 지연시간 단축 고려

태그