피드로 돌아가기
I built an AI English speaking coach — what was technically hard
Dev.toDev.to
AI/ML

Latency 1.5s 달성을 위한 Streaming ASR 및 Rubric 기반 평가 시스템 설계

I built an AI English speaking coach — what was technically hard

Elispeak2026년 4월 24일4advanced

Context

실시간 AI 영어 회화 코칭 서비스에서 단순 전사(Transcription)를 넘어 발음 및 유창성 피드백을 즉각 제공해야 하는 과제 직면. Batch 처리 방식의 ASR과 단순 Prompt 기반 평가로는 시험 루브릭(Rubric)의 엄격한 시간 제한과 사용자 체감 지연 시간 문제를 해결하기 어려운 한계 존재.

Technical Solution

  • End-to-end Latency 최소화를 위해 Batch 방식 대신 Streaming ASR 및 Interim Hypotheses를 도입한 파이프라인 설계
  • 오디오 청크 수신 즉시 발음 평가를 시작하기 위한 Phoneme-alignment Path 사전 계산 구조 적용
  • 전사 텍스트 기반 분석이 아닌 오디오 스트림 자체에서 Pace, Filler-word Density, Stress Timing을 추출하는 Scoring 로직 구현
  • 시험 모드별 모델 버전을 고정(Pinning)하고 전용 Eval Set을 구축하여 Base-model 업데이트에 따른 피드백 Drift 방지
  • 사용자 심리적 장벽 제거를 위해 상황별 Pacing 및 Pause 패턴이 적용된 Neural TTS 및 Persona Config 체계 도입
  • WebRTC 기반 캡처와 파이프라인 단계별 Progressive UI 업데이트를 통한 체감 대기 시간 단축

- 실시간 피드백 시스템 설계 시 Batch 처리 대신 Streaming 및 중간 결과(Interim) 활용 방안 검토 - LLM 기반 평가 시스템 구축 시 Prompt 수정보다 모델 버전 고정과 전용 Eval Loop 구축 우선순위 설정 - 음성 인터페이스 구현 시 기술적 무지연(Zero-latency)보다 인간의 대화 패턴을 모사한 의도적 지연(Micro-delay) 설계 고려

원문 읽기