OEX 아키텍처 기반 16,000 GPU 확장성 및 TCO 최적화 달성

ZTE builds a TCO-optimal AI factory to fuel token economy

2026년 6월 25일3분advanced

AI 요약

Context

Scaled Inference 단계 진입에 따른 Token당 비용 최적화 필요성 증대. 기존 아키텍처의 물리적 연결 복잡도와 신호 손실로 인한 Computing Power 병목 현상 발생.

Technical Solution

Midplane-free 및 Zero-cable 설계를 적용한 OEX(Orthogonal Electrical eXchange) 아키텍처 도입으로 물리적 디커플링 구현
CLink 및 SUE 고속 인터커넥트 프로토콜 지원을 통한 Multi-chip Synergy 및 하드웨어 호환성 확보
DPU 하드웨어 가속 기반 AI-native KV Cache 구현으로 GPU-Storage 간 Zero-copy 데이터 전송 및 마이크로초 단위 지연시간 달성
PD Disaggregation 및 Multi-level KV Cache 적용을 통한 Per-watt 효율 극대화와 Throughput 병목 제거
Pre-Integration 모델 도입을 통한 제품 적응 및 튜닝 사이클의 획기적 단축 설계

Impact

단일 랙 기준 최대 128 GPU 고밀도 통합 및 최대 16,000 GPU 규모의 Cluster 확장 지원
Intelligent Prefetching 및 Dynamic Eviction 메커니즘을 통한 KV Cache Hit Rate 70% 이상 달성
Pre-Integration 모델 적용으로 제품 적응 및 튜닝 주기 1년 이상에서 6개월 이내로 단축

Key Takeaway

단순한 하드웨어 증설이 아닌 물리적 인터커넥트 구조(Orthogonal)의 혁신과 하드웨어-소프트웨어 Co-design이 TCO 최적화의 핵심 동인임.

실천 포인트

- 대규모 GPU 클러스터 설계 시 인터커넥트 신호 손실을 최소화하는 물리적 토폴로지 검토 - Inference 성능 향상을 위해 DPU를 활용한 Storage Direct Access 및 Zero-copy 메커니즘 적용 고려 - KV Cache Hit Rate 향상을 위한 Dynamic Eviction 전략 및 Prefetching 로직 최적화 수행 - 하드웨어-소프트웨어 간 의존성을 줄이는 Pre-Integration 및 디커플링 아키텍처 채택

태그

#OEX Architecture #TCO Optimization #KV Cache #Scaled Inference #DPU Acceleration

원문 읽기