피드로 돌아가기
Dev.toAI/ML
원문 읽기
Cerebras 기반 LLM 도입으로 응답 지연 1초 미만 달성한 보이스 로봇 아키텍처
Echo grows up and becomes Hey, Reachy
AI 요약
Context
다양한 기능을 포함한 복잡한 플랫폼 구조에서 탈피하여 '음성 대화'라는 단일 목적에 집중한 시스템 재설계 수행. 기존 구조의 파편화된 기능을 제거하고 실시간 상호작용을 위한 최적화된 파이프라인 구축 필요성 대두.
Technical Solution
- openWakeWord를 활용한 On-device Wake word 감지로 계정 및 API Key 의존성 제거
- OpenAI-compatible Endpoint 기반의 단일 Gateway 설계를 통한 STT, LLM, TTS 엔진 교체 유연성 확보
- Cerebras 인프라 기반의 gpt-oss-120b 모델 채택으로 추론 속도 극대화
- 대화 세션 동안 Audio Stream을 유지하여 하드웨어 스피커 제어권 상실 문제 해결
- TTS 입력 전 정규식을 통한 Asterisks(*) 기반 stage directions 제거로 음성 출력 오류 방지
- 불필요한 움직임을 최소화한 Calm Motion 설계를 통해 하드웨어 간섭 및 물리적 충돌 방지
실천 포인트
1. 실시간 음성 루프 설계 시 LLM 지능보다 추론 속도(Latency) 우선 순위 설정
2. 하드웨어 제어 시 오디오 스트림의 지속 유지 여부 확인
3. LLM 출력 값의 TTS 전달 전 텍스트 전처리를 통한 비음성 데이터 필터링 적용
4. 엔진 교체 가능성을 고려한 표준 Interface layer 설계