WebGPU 기반 ONNX Runtime 도입을 통한 로컬 AI 파이프라인의 브라우저 단일화

Subtitles From a YouTube Link Without Leaving the Browser

zephyr zheng2026년 4월 19일3분intermediate

AI 요약

Context

기존의 오디오 추출 및 전사 과정은 yt-dlp, Whisper, ffmpeg 등 다수의 CLI 도구와 Python 환경 구축이 필수적인 분절적 구조임. 이로 인해 파일 이동에 따른 Context Switch 발생 및 모델 가중치 관리를 위한 로컬 디스크 점유라는 운영 효율성 저하 문제가 존재함.

Technical Solution

Transformers.js v3 및 ONNX Runtime Web 도입을 통한 WebGPU 가속 기반의 브라우저 내 추론 환경 구현
Whisper-tiny 모델의 ONNX Quantization 적용으로 모델 크기를 약 40MB로 경량화하여 IndexedDB 내 캐싱 구조 설계
MediaRecorder 및 WebCodecs API를 활용한 서버 통신 없는 클라이언트 사이드 오디오 추출 로직 구현
WASM 샌드박스를 벗어나 WebGPU 디바이스 직접 제어를 통한 추론 속도 및 효율성 최적화
ad-hoc 작업의 제로 셋업 구현을 위해 런타임 환경을 브라우저 탭 하나로 통합하는 단일 런타임 아키텍처 채택

실천 포인트

1. 소규모 추론 모델의 경우 ONNX Quantization과 IndexedDB 캐싱을 통해 배포 및 초기 구동 속도 최적화 검토

2. 고부하 배치 작업(Long-form, Batch)과 즉시성 작업(Ad-hoc)을 분리하여 CLI와 Browser 기반 인터페이스를 이원화하여 설계

3. WebGPU 및 WebCodecs API의 성숙도를 판단하여 서버 사이드 처리 비용을 클라이언트로 전이 가능한지 분석

태그

#Quantization #Transformers.js #WebAssembly #ONNX Runtime #WebGPU

원문 읽기