0.40s latency 구현한 Encoder-free Early Fusion 기반 Interaction Model

How Thinking Machines built interactivity into the model

Thousand Miles AI2026년 5월 24일5분advanced

AI 요약

Context

기존 Real-time speech 시스템은 Voice-Activity-Detection(VAD) 기반의 Harness 구조로 인해 입력과 출력이 분리된 Turn-based 방식에 의존함. 이로 인해 사용자의 의도 파악 지연 및 '듣는 중 말하기'와 같은 동시적 상호작용 구현에 구조적 한계가 존재함.

Technical Solution

200ms Tick 기반의 연속적 입출력 스트림 설계를 통한 Turn-boundary 제거
Encoder-free Early Fusion 도입으로 Audio(dMel features)와 Video(40x40 patches)를 얇은 Embedding layer에서 직접 처리하는 구조 설계
Interaction Model(276B MoE)과 Background Model의 비동기 분리 구조를 통한 실시간성 및 심층 추론 성능 동시 확보
모든 구성 요소(Embedding, Image Patcher, Flow Head, Transformer)를 처음부터 함께 학습시키는 Co-training 전략 채택
Background Model의 추론 결과를 Interaction Model이 실시간 대화 흐름에 맞춰 유연하게 병합하는 Context sharing 메커니즘 적용

실천 포인트

- 실시간성 요구 시스템 설계 시 VAD와 같은 외부 트리거 의존도를 낮추고 데이터 스트림 기반의 틱(Tick) 단위 처리 검토 - 복잡한 전처리 모델(Encoder)이 전체 시스템의 성능 병목이 되는지 확인하고 Early Fusion 적용 가능성 평가 - 고성능 추론과 저지연 응답이 동시에 필요할 경우, Interaction/Background 모델로 역할을 분리한 비동기 아키텍처 고려

태그

#MoE #End-to-End Latency #Interaction Model #Early Fusion #Co-training

원문 읽기