피드로 돌아가기
Почему мой real-time переводчик для Google Meet работает у вас на ноутбуке, а не на моём сервере
Dev.toDev.to
Infrastructure

인프라 비용 0원 달성한 BYOK 기반 로컬 서버 아키텍처 설계

Почему мой real-time переводчик для Google Meet работает у вас на ноутбуке, а не на моём сервере

Oleksii “Alex” Herasymchuk2026년 4월 20일8advanced

Context

중앙 집중형 STT/LLM/TTS 서버 모델로 인한 운영 비용 증가와 사용자 오디오 데이터 프라이버시 노출 위험이 병목 지점으로 작용함. 특히 무거운 사용자로 인해 비용이 선형적으로 증가하는 구조적 한계를 극복해야 하는 상황임.

Technical Solution

  • BYOK(Bring Your Own Key) 모델 도입을 통한 API 비용 전가 및 운영 비용 $0 달성
  • Electron 기반 로컬 WebSocket 서버를 구축하여 사용자 기기를 연산 서버로 활용하는 분산 구조 설계
  • getUserMedia API 훅킹 및 Web Audio API 기반의 오디오 그래프 구축으로 실시간 TTS 인젝션 구현
  • 단일 WebSocket 내 Prefix Byte(0x00, 0x01) 멀티플렉싱을 통한 Incoming/Outgoing 파이프라인 효율화
  • Manifest V3 제약을 극복하기 위해 Offscreen Document를 활용한 Stateful 연결 유지 및 상태 관리
  • TranscriptBuffer 도입으로 문장 경계 및 화자 변경 시점을 제어하여 번역 품질 최적화

- 고비용 AI API 활용 서비스 설계 시 BYOK 옵션 검토 - 브라우저 샌드박스 제약 극복을 위한 Native Wrapper(Electron 등)와 Local Server 통신 구조 고려 - Web Audio API를 활용한 실시간 스트림 믹싱 및 오디오 인터셉트 구현 가능성 확인 - MV3 환경의 Service Worker 상태 유지 제약을 위한 Offscreen Document 설계 적용

원문 읽기