피드로 돌아가기
Dev.toAI/ML
원문 읽기
Grok 4.3: 멀티모달 확장 및 TTS/STT API 단가 86~92% 절감
Grok 4.3 Review: What's New in xAI's Latest Model (April 2026)
AI 요약
Context
기존 Grok 4.20의 텍스트 및 이미지 중심 처리 구조와 세션 간 메모리 부재라는 제약 존재. 고성능 추론 능력을 넘어 실제 업무 워크플로우에 통합 가능한 출력 포맷과 실시간 오디오 처리 능력 확보가 필요한 시점.
Technical Solution
- 0.5T 파라미터 기반 모델 및 1T 체크포인트 학습을 통한 Reasoning Depth 강화
- Video Input 네이티브 지원으로 비디오 콘텐츠에 대한 대화형 추론 구조 설계
- PDF, Spreadsheet, PowerPoint 등 구조화된 문서 생성 로직의 직접 통합
- WebSocket 스트리밍 및 REST Batch 방식을 병행하는 하이브리드 STT API 아키텍처 구현
- Expressive Speech Tag([laugh], [sigh] 등)를 통한 별도 파인튜닝 없는 음성 표현 제어
- Rust 기반의 End-to-End Encryption 메시징 앱 XChat과 Grok 추론 엔진의 결합
실천 포인트
- 기존 고비용 TTS/STT 솔루션 사용 시 xAI API의 TCO(총 소유 비용) 분석 및 마이그레이션 검토 - 대규모 이미지/비디오 생성 워크플로우 설계 시 24시간 내 완료되는 Asynchronous Batch API 도입 고려 - 멀티모달 입력 기반 서비스 설계 시 Video-to-Text 추론 파이프라인의 가능성 검토