피드로 돌아가기
InfoQInfrastructure
원문 읽기
L3 Cache 의존성 제거 및 Parallelism 최적화로 트래픽 수용량 2배 증대
Cloudflare Optimizes Edge Stack for High-Core CPUs Instead of Large Cache
AI 요약
Context
기존 FL1 스택의 부족한 Scale-out 성능을 대규모 L3 Cache 하드웨어로 보완하던 구조적 한계 존재. 최신 고밀도 CPU 도입 시 Cache 크기 감소로 인해 초기 Latency가 약 50% 증가하는 병목 현상 발생.
Technical Solution
- Rust 기반의 FL2 소프트웨어 스택으로 전면 재설계하여 Memory Access Pattern 최적화
- Dynamic Allocation을 최소화하는 구조 설계로 L3 Cache 의존도 제거
- AMD EPYC Turin 9965의 192-core 고밀도 연산 자원을 활용한 Parallelism 중심 아키텍처 전환
- Hardware-Software Co-design을 통한 고집적 코어 환경의 Latency Penalty 해결
- 100 GbE NIC 및 PCIe 5.0 NVMe 도입을 통한 I/O 대역폭 병목 해소
Impact
- Gen 12 대비 서버당 트래픽 처리 용량 최대 2배 증가
- 전력 소비 증가 없이 랙당 수용 Capacity 약 60% 향상
- L3 Cache가 1/3 수준으로 감소한 환경에서 소프트웨어 최적화로 Latency Penalty 제거
실천 포인트
1. 하드웨어 캐시 성능에 의존하는 소프트웨어의 Scale-out 한계점을 분석했는가
2. Rust 등 시스템 언어를 활용해 Memory Allocation 패턴을 제어하고 예측 가능성을 높였는가
3. 최신 CPU의 고집적 코어 수를 활용할 수 있는 병렬 처리 구조로 설계되었는가
4. 하드웨어 세대 교체 시 단순 교체가 아닌 Software-Hardware Co-design 관점으로 접근했는가