피드로 돌아가기
GLM-5.2 Becomes the Top Open-Weights Model: Active vs Total Parameters
Dev.toDev.to
AI/ML

GLM-5.2: 744B 파라미터 규모와 40B 연산 비용의 효율적 분리

GLM-5.2 Becomes the Top Open-Weights Model: Active vs Total Parameters

pueding2026년 6월 23일8intermediate

Context

Dense 모델 구조에서 모든 가중치가 매 토큰 연산에 참여함에 따라 파라미터 증가가 곧바로 연산 비용 상승으로 이어지는 한계 발생. 지식 용량 확장을 위한 모델 대형화와 추론 효율성 유지라는 상충하는 요구사항 해결이 필요함.

Technical Solution

  • MoE(Mixture-of-Experts) 아키텍처 도입을 통한 Total Parameters와 Active Parameters의 디커플링 설계
  • Transformer의 Feed-Forward Network를 다수의 Expert sub-networks로 분할하여 지식 저장소 확장
  • Router 네트워크를 통해 토큰별 최적 Expert만을 선택적으로 활성화하는 동적 라우팅 로직 구현
  • 744B 전체 파라미터를 GPU 메모리에 상주시켜 지식 용량을 확보하되, 실제 연산은 40B 수준으로 제한하는 Sparse 구조 채택
  • Memory Footprint(전체 가중치)와 Compute/Bandwidth(활성 가중치) 비용 체계를 분리하여 추론 효율 최적화

- 대규모 모델 배포 시 Memory Footprint와 Per-token Compute 비용을 구분하여 인프라 예산 산정 - 메모리 제약 조건이 극심한 환경에서는 MoE 모델보다 작은 Dense 모델의 효율성 검토 - 744B급 MoE 모델 운용을 위한 Multi-GPU 노드 구성 및 Quantization 적용 여부 필수 확인

원문 읽기