피드로 돌아가기
The RegisterInfrastructure
원문 읽기
16,000 GPU 확장성과 OEX 구조를 통한 Token 생산 효율 극대화
ZTE showcases full-stack AI capabilities at MWC Shanghai 2026, empowering new era of token operations
AI 요약
Context
AI 추론 시대의 핵심 경쟁력이 Computing Power 규모에서 Token Efficiency로 이동함에 따라 기존 인프라의 TCO 증가와 에너지 효율 저하가 병목 지점으로 작용함. Token의 생산, 스케줄링, 순환을 통합 관리하는 End-to-End 아키텍처의 부재로 인한 리소스 낭비 발생.
Technical Solution
- OEX(Orthogonal Electrical eXchange) 아키텍처 도입을 통한 Plug-and-play 배포 및 하드웨어 프로비저닝 가속화
- Single Rack당 128 GPU 배치 및 최대 16,000 GPU 확장 가능한 SuperPod 구조 설계로 대규모 모델 학습 및 추론 대응
- Non-blocking Network와 GSLB(Global Server Load Balancing) 적용을 통해 수천~수만 개의 GPU 클러스터 간 효율적 연산 조율
- 800V HVDC 전원 공급과 Full-stack Liquid Cooling 통합으로 AIDC의 에너지 효율 최적화 및 저탄소 운영 구현
- AIOS 기반의 NewStart 및 Co-Claw Agent 플랫폼 구축을 통한 Token 스케줄링과 서비스 지향적 출력 제어
- GigaMIMO 및 256 TR U6G 프로토타입을 통한 6G Network Capacity 확장 및 Spectral Efficiency 개선
실천 포인트
1. 대규모 GPU 클러스터 설계 시 Non-blocking Network 및 GSLB를 통한 트래픽 분산 전략 검토
2. 전력 효율 극대화를 위해 고전압 DC 전원 및 액침 냉각(Liquid Cooling) 도입 가능성 분석
3. 하드웨어 확장성 확보를 위해 모듈형 인터페이스(OEX-like) 및 Plug-and-play 구조 적용 고려
4. 추론 최적화를 위해 Token 생산부터 서비스 전달까지의 전 과정을 제어하는 오케스트레이션 계층 설계