피드로 돌아가기
AI Speech Recognition in Unity
Hugging Face BlogHugging Face Blog
Frontend

Hugging Face Unity API를 활용해 Unity 게임에 음성 인식 기능을 구현하는 통합 가이드

AI Speech Recognition in Unity

2023년 6월 2일6beginner

Technical Solution

  • Microphone.Start()로 마이크 입력 녹음: 최대 10초, 44100 Hz 샘플링 레이트로 AudioClip 생성
  • WAV 형식 인코딩: float[] 샘플 배열을 BinaryWriter로 직렬화해 RIFF/WAVE 헤더 포함한 바이트 배열 생성
  • Microphone.GetPosition()으로 녹음 자동 종료: 10초 또는 최대 길이 도달 시 StopRecording() 트리거
  • HuggingFaceAPI.AutomaticSpeechRecognition() 호출: 인코딩된 WAV 바이트 배열을 Hugging Face API로 전송해 음성-텍스트 변환
  • UI 상태 관리: 녹음 중(Recording...) → 전송 중(Sending...) → 완료/오류 표시로 사용자 피드백 제공

Key Takeaway

Unity 게임에서 마이크 입력을 직접 캡처하고 WAV 인코딩 후 클라우드 AI API로 전송하는 패턴을 통해 복잡한 음성 인식 모델 구축 없이 최신 기능을 빠르게 통합할 수 있다.


Unity 게임 개발자가 Microphone API와 BinaryWriter를 활용해 로컬 오디오를 WAV 형식으로 인코딩한 후 Hugging Face API에 전송하면, NPC 상호작용, 게임 커맨드 입력, 접근성 개선 등에 음성 인식을 적용할 수 있다.

원문 읽기