피드로 돌아가기
Dev.toAI/ML
원문 읽기
ESP32-Cloud 기반 I2S 오디오 파이프라인을 통한 실시간 STT 구현
ESP32 Into a Speech-to-Text Device
AI 요약
Context
ESP32의 제한된 연산 성능과 메모리 용량으로 인한 On-device Speech Recognition 모델 구동 불가능 상태 분석. 하드웨어 제약 사항을 극복하기 위해 엣지 단의 데이터 캡처와 클라우드 단의 AI 추론을 분리한 하이브리드 구조 채택.
Technical Solution
- INMP441 마이크로폰과 I2S 프로토콜 연동을 통한 고정밀 16-bit PCM 오디오 데이터 캡처
- WiFi 인터페이스 기반 HTTPS 통신을 활용한 Raw Audio 데이터의 Wit.ai API 전송 구조 설계
- 무거운 AI 모델 연산을 클라우드로 위임하여 ESP32의 역할을 Audio Capture, WiFi Communication, Result Display로 한정한 리소스 최적화
- JSON 응답 파싱을 통한 텍스트 추출 및 OLED 디스플레이의 상태 기반 UI(Connecting, Listening, Processing) 구현
- Push Button 인터럽트 방식을 적용한 이벤트 기반 음성 인식 트리거 메커니즘 구축
실천 포인트
- 임베디드 환경에서 고사양 AI 모델 필요 시 On-device 처리 대신 API 기반의 Offloading 전략 검토 - I2S 인터페이스 활용 시 샘플링 레이트와 비트 깊이가 API 요구 사양과 일치하는지 확인 - 사용자 경험 향상을 위해 처리 단계별 상태 값을 디스플레이에 명시하는 피드백 루프 설계