피드로 돌아가기
Why I built Parlotype: a privacy-first voice-to-English desktop app on .NET 10
Dev.toDev.to
AI/ML

.NET 10 기반 Local AI 파이프라인을 통한 프라이버시 중심 음성 번역 시스템 구축

Why I built Parlotype: a privacy-first voice-to-English desktop app on .NET 10

Maksim Demin2026년 5월 8일3intermediate

Context

기존 OS 내장 Dictation 기능의 번역 부재와 클라우드 기반 서비스의 프라이버시 침해 문제 발생. 다국어 입력 환경에서 발생하는 컨텍스트 스위칭 비용 및 브라우저 의존적 워크플로우의 비효율성 해결 필요.

Technical Solution

  • Cross-platform UI 구현을 위해 MAUI 대비 Tray 및 Native Window 제어력이 우수한 Avalonia UI 12 채택
  • C# Idiomatic API 및 Managed Memory 관리를 통한 통합 효율성을 위해 Whisper.cpp 대신 Whisper.net 활용
  • ONNX Runtime 기반 Silero VAD 도입으로 WebRTC VAD 대비 정교한 음성/침묵 세그멘테이션 및 반응성 확보
  • NVIDIA GPU의 CUDA 가속과 더불어 AMD/Intel GPU 지원을 위한 Vulkan Backend를 병행 구축하여 하드웨어 범용성 확장
  • SharpHook을 통한 Global Hotkey 구현으로 앱 간 전환 없는 Direct Text Injection 파이프라인 설계
  • Audio Capture부터 Translation까지의 전 과정을 Local-only로 처리하여 데이터 외부 유출 원천 차단

- Local AI 모델 도입 시 특정 벤더 종속성(CUDA)을 탈피하기 위해 Vulkan과 같은 범용 가속 API 검토 - C# 환경에서 Native C++ 라이브러리 통합 시 메모리 관리 효율을 위해 Managed Wrapper 라이브러리 우선 고려 - 실시간 음성 처리 시스템 설계 시 단순 인식 전 단계에 VAD(Voice Activity Detection)를 배치하여 처리 지연 시간 최소화

원문 읽기