피드로 돌아가기
Mumbli – my personal Wispr Flow
Dev.toDev.to
AI/ML

Groq 기반 STT 도입을 통한 타이핑 수준의 저지연 인터랙션 구현

Mumbli – my personal Wispr Flow

Alex2026년 5월 21일3intermediate

Context

기존 STT 애플리케이션의 무거운 Electron 기반 구조와 제한적인 엔진 선택권으로 인한 사용자 경험 저하. 특히 전사 작업의 지연 시간(Latency)이 실제 타이핑 속도와 괴리되어 도구의 생산성이 하락하는 문제 직면.

Technical Solution

  • 인터랙션 비용 최소화를 위한 Tiny Overlay 및 Simple Key Binding 기반의 UI 설계
  • 요구사항에 따라 엔진을 교체할 수 있는 Swappable Engine 구조 채택
  • Groq(whisper-large-v3-turbo)를 통한 초저지연 STT 파이프라인 구축
  • 성능 측정 기반의 Quality-oriented path와 Fast path의 이원화 전략 수립
  • 오디오 파일 준비 완료 시점부터 텍스트 반환 시점까지의 End-to-End Latency 정밀 측정

Impact

  • Groq 도입 결과 Median STT Latency 534ms 달성
  • ElevenLabs 대비 Median 4.5배, p95 6.8배의 처리 속도 향상
  • p95 Latency를 1,098ms 수준으로 억제하여 실시간 타이핑에 근접한 사용자 경험 제공

1. 사용자 경험(UX) 결정 요소가 '정확도'인지 '응답 속도'인지 정의하고 그에 맞는 엔진 경로를 분리하여 설계할 것

2. STT 서비스 도입 시 단순 평균값이 아닌 p95 Latency를 측정하여 꼬리 지연(Tail Latency)이 인터랙션 흐름을 깨지 않는지 검증할 것

3. 고정된 단일 벤더 의존성을 피하고 벤치마크 결과에 따라 엔진을 교체할 수 있는 추상화 레이어 구축을 검토할 것

원문 읽기