Thought Compression을 통한 추론 토큰 50% 절감 및 30억 DAU 규모 최적화 설계

Meta Muse Spark: What Meta Is Actually Betting On

Sameer Khan2026년 4월 17일8분advanced

AI 요약

Context

기존 LLM의 추론 과정에서 발생하는 과도한 Output Token 소비로 인한 추론 비용 상승 및 응답 지연 발생. 30억 명의 DAU를 처리해야 하는 Meta AI의 인프라 규모에서 기존 방식의 추론 모델 적용은 경제적·기술적 병목 지점임.

Technical Solution

RL 단계에서 과도한 Reasoning Token 생성 시 페널티를 부여하는 Thought Compression 기법 도입
최소한의 중간 단계만으로 정답에 도달하도록 학습시켜 추론 효율성을 극대화한 아키텍처 설계
복잡한 시각적 작업 해결을 위해 이미지를 그리드로 분할하고 개별 타일당 Subagent를 할당하는 Parallel Subagents 구조 채택
단일 대형 쿼리 대신 다수의 소형 쿼리로 분산 처리하여 Inference Time의 복합 효율성 달성
9개월간의 AI 인프라 전면 재구축을 통한 Instant, Thinking, Contemplating 3단계 모드 기반의 계층적 추론 로드맵 수립

Impact

추론 시 Output Token 사용량 58M으로 Claude Opus 4.6(157M) 및 GPT-5.4(120M) 대비 50% 이상 절감
Llama 4 Maverick 대비 약 1/10 수준의 Training Compute 사용으로 학습 효율 개선
Intelligence Index 점수 18점에서 52점으로 약 3배의 성능 향상 달성

실천 포인트

- 대규모 트래픽 서비스 설계 시 벤치마크 순위보다 Token per Query 감소를 통한 추론 경제성 확보 검토 - 복잡한 태스크 처리 시 단일 모델의 긴 추론 과정보다 Parallel Subagents를 통한 작업 분할 및 병렬 처리 구조 적용 고려 - 단기적인 성능 지표 경쟁보다 인프라 재구축과 단계적 기능 확장(Staged Ladder)을 통한 장기적 확장성 확보 전략 수립

태그

#Inference Efficiency #Scaling Law #Parallel Subagents #Thought Compression #Multimodal Reasoning

원문 읽기