피드로 돌아가기
Dev.toAI/ML
원문 읽기
.NET 10 기반 Local AI 파이프라인을 통한 프라이버시 중심 음성 번역 시스템 구축
Why I built Parlotype: a privacy-first voice-to-English desktop app on .NET 10
AI 요약
Context
기존 OS 내장 Dictation 기능의 번역 부재와 클라우드 기반 서비스의 프라이버시 침해 문제 발생. 다국어 입력 환경에서 발생하는 컨텍스트 스위칭 비용 및 브라우저 의존적 워크플로우의 비효율성 해결 필요.
Technical Solution
- Cross-platform UI 구현을 위해 MAUI 대비 Tray 및 Native Window 제어력이 우수한 Avalonia UI 12 채택
- C# Idiomatic API 및 Managed Memory 관리를 통한 통합 효율성을 위해 Whisper.cpp 대신 Whisper.net 활용
- ONNX Runtime 기반 Silero VAD 도입으로 WebRTC VAD 대비 정교한 음성/침묵 세그멘테이션 및 반응성 확보
- NVIDIA GPU의 CUDA 가속과 더불어 AMD/Intel GPU 지원을 위한 Vulkan Backend를 병행 구축하여 하드웨어 범용성 확장
- SharpHook을 통한 Global Hotkey 구현으로 앱 간 전환 없는 Direct Text Injection 파이프라인 설계
- Audio Capture부터 Translation까지의 전 과정을 Local-only로 처리하여 데이터 외부 유출 원천 차단
실천 포인트
- Local AI 모델 도입 시 특정 벤더 종속성(CUDA)을 탈피하기 위해 Vulkan과 같은 범용 가속 API 검토 - C# 환경에서 Native C++ 라이브러리 통합 시 메모리 관리 효율을 위해 Managed Wrapper 라이브러리 우선 고려 - 실시간 음성 처리 시스템 설계 시 단순 인식 전 단계에 VAD(Voice Activity Detection)를 배치하여 처리 지연 시간 최소화