피드로 돌아가기
Hacker NewsHacker News
AI/ML

클라우드 없이 Mac 로컬에서 구현한 STT 및 텍스트 정제 파이프라인

Show HN: Ghost Pepper – 100% local hold-to-talk speech-to-text for macOS

2026년 4월 6일2intermediate

Context

기존 Speech-to-Text 서비스의 외부 API 의존성으로 인한 데이터 유출 위험 존재. 클라우드 기반 처리 방식의 프라이버시 침해 및 네트워크 지연 문제 해결 필요.

Technical Solution

  • Apple Silicon M1+ 하드웨어 가속 기반의 100% 로컬 추론 아키텍처 설계
  • WhisperKit(small.en) 모델을 활용한 실시간 음성-텍스트 변환 프로세스 구축
  • Qwen 2.5(1.5B/3B) LLM을 통한 필러 단어 제거 및 자기 수정 텍스트 정제 로직 구현
  • LLM.swift 및 Hugging Face 라이브러리를 이용한 모델 로드 및 로컬 캐싱 전략 적용
  • Accessibility 권한 기반의 전역 핫키 인식 및 시뮬레이션 키스트로크를 통한 텍스트 자동 입력 방식 채택
  • 데이터 보안을 위해 디스크 로깅을 완전히 배제한 인메모리 전용 디버그 로그 구조 설계

Impact

  • WhisperKit(small.en) 모델 크기 약 466 MB
  • Qwen 2.5 모델 크기 약 3 GB

Key Takeaway

온디바이스 AI 모델 최적화를 통해 외부 서버 통신 없이도 개인정보 보호와 실시간성을 동시에 확보하는 에지 컴퓨팅 설계의 가능성 입증.


개인정보 보호가 중요한 STT 서비스 설계 시 WhisperKit와 LLM.swift를 조합한 온디바이스 파이프라인 검토 필요

원문 읽기