피드로 돌아가기
Show GN: 오프라인 영상 자막 추출 및 번역 데스크톱 앱 v2.0 (오픈소스)
GeekNewsGeekNews
AI/ML

Show GN: 오프라인 영상 자막 추출 및 번역 데스크톱 앱 v2.0 (오픈소스)

whisper.cpp와 Local LLM 기반의 완전 오프라인 자막 추출 및 번역 시스템 구축

gongryak2026년 5월 23일1intermediate

Context

클라우드 기반 음성 인식 및 번역 서비스의 데이터 프라이버시 침해 위험과 API 비용 발생 문제 해결 필요. 기존 온라인 의존적 구조에서 탈피하여 사용자 로컬 환경에서 동작하는 독립적 처리 파이프라인 설계 요구.

Technical Solution

  • whisper.cpp 라이브러리 통합을 통한 로컬 디바이스 내 고성능 음성 텍스트 변환(STT) 구현
  • GGUF 포맷의 HY-MT 모델 채택으로 GPU 자원이 제한된 환경에서도 동작하는 Local LLM 번역 경로 확보
  • 장시간 영상 처리를 위한 Batch Queue 기반의 비동기 작업 처리 구조 설계
  • MyMemory, DeepL, OpenAI, Gemini 등 다양한 번역 엔진을 선택적으로 사용할 수 있는 플러그인 인터페이스 적용
  • Windows 포터블 빌드 제공을 통한 배포 복잡도 제거 및 실행 환경 일관성 유지

- Privacy-first 서비스 설계 시 Local-first 라이브러리(whisper.cpp 등) 검토 - 대용량 미디어 처리 시 UI 프리징 방지를 위한 Batch Queue 및 비동기 처리 적용 - 모델 가중치 최적화를 위해 GGUF와 같은 양자화 포맷 활용 고려

원문 읽기