피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Mixture of Experts(MoE)란 무엇인가 — DeepSeek이 왜 1.6조 파라미터인데 싸게 돌아가는지
활성 파라미터 3% 제어로 구현한 1.6조 규모 MoE의 비용 혁신
AI 요약
Context
모든 입력에 전체 파라미터를 사용하는 Dense Model의 높은 추론 비용 문제 발생. 모델 규모 확대에 따른 계산 복잡도 증가로 인한 서비스 비용 효율성 저하 상황.
Technical Solution
- Gating Network를 통한 입력 토큰별 최적 전문가(Expert) 선택 구조 설계
- 전체 1.6조 파라미터 중 토큰당 490억 개만 활성화하는 Sparse Activation 전략 채택
- 전문가 서브모델 분리를 통한 지식 저장 용량 확대와 실제 연산량 분리
- 라우팅 로직을 통한 입력 데이터 특성에 맞는 연산 경로 최적화
- 전문가 간 부하 불균형 해소를 위한 별도의 관리 메커니즘 적용
Impact
- 전체 파라미터 대비 약 3%의 토큰당 활성 파라미터 비율 달성
- Dense Model 대비 가격 대비 성능 3~5배 개선
- GPT-5.5 대비 약 1/10 수준의 서비스 비용 구현
Key Takeaway
모델의 절대적 크기보다 실제 추론 시 참여하는 연산량을 제어하는 Sparse Architecture가 비용 효율성의 핵심임.
실천 포인트
1. 추론 비용 최적화를 위해 전체 모델 크기와 활성 파라미터 수를 분리하여 설계했는가?
2. Gating Network의 부하 분산 전략이 전문가 간 데이터 불균형을 방지하는가?
3. 높은 VRAM 요구량을 감당할 수 있는 인프라 리소스 확보 계획이 수립되었는가?