피드로 돌아가기
Meta Muse Spark: What Meta Is Actually Betting On
Dev.toDev.to
AI/ML

Thought Compression을 통한 추론 토큰 50% 절감 및 30억 DAU 규모 최적화 설계

Meta Muse Spark: What Meta Is Actually Betting On

Sameer Khan2026년 4월 17일8advanced

Context

기존 LLM의 추론 과정에서 발생하는 과도한 Output Token 소비로 인한 추론 비용 상승 및 응답 지연 발생. 30억 명의 DAU를 처리해야 하는 Meta AI의 인프라 규모에서 기존 방식의 추론 모델 적용은 경제적·기술적 병목 지점임.

Technical Solution

  • RL 단계에서 과도한 Reasoning Token 생성 시 페널티를 부여하는 Thought Compression 기법 도입
  • 최소한의 중간 단계만으로 정답에 도달하도록 학습시켜 추론 효율성을 극대화한 아키텍처 설계
  • 복잡한 시각적 작업 해결을 위해 이미지를 그리드로 분할하고 개별 타일당 Subagent를 할당하는 Parallel Subagents 구조 채택
  • 단일 대형 쿼리 대신 다수의 소형 쿼리로 분산 처리하여 Inference Time의 복합 효율성 달성
  • 9개월간의 AI 인프라 전면 재구축을 통한 Instant, Thinking, Contemplating 3단계 모드 기반의 계층적 추론 로드맵 수립

Impact

  • 추론 시 Output Token 사용량 58M으로 Claude Opus 4.6(157M) 및 GPT-5.4(120M) 대비 50% 이상 절감
  • Llama 4 Maverick 대비 약 1/10 수준의 Training Compute 사용으로 학습 효율 개선
  • Intelligence Index 점수 18점에서 52점으로 약 3배의 성능 향상 달성

- 대규모 트래픽 서비스 설계 시 벤치마크 순위보다 Token per Query 감소를 통한 추론 경제성 확보 검토 - 복잡한 태스크 처리 시 단일 모델의 긴 추론 과정보다 Parallel Subagents를 통한 작업 분할 및 병렬 처리 구조 적용 고려 - 단기적인 성능 지표 경쟁보다 인프라 재구축과 단계적 기능 확장(Staged Ladder)을 통한 장기적 확장성 확보 전략 수립

원문 읽기