피드로 돌아가기
Launching Cloudflare’s Gen 13 servers: trading cache for cores for 2x edge compute performance
Cloudflare BlogCloudflare Blog
Infrastructure

Launching Cloudflare’s Gen 13 servers: trading cache for cores for 2x edge compute performance

Cloudflare가 FL1에서 FL2(Rust 기반 재작성)로 전환하여 Gen 13 서버의 L3 캐시 감소를 극복하고 2배의 처리량 달성

Jesse Brandeburg2026년 3월 23일12advanced

Context

Cloudflare의 기존 요청 처리 계층 FL1(NGINX + LuaJIT 기반)은 AMD EPYC Gen 12의 3D V-Cache(코어당 12MB)에 의존했다. Gen 13 Turin 프로세서는 192개 코어로 2배 증가했지만 L3 캐시는 코어당 2MB로 6분의 1로 축소되었고, 이로 인해 L3 캐시 미스율이 급증하여 DRAM 접근 레이턴시(350+ 사이클)가 L3 캐시 히트(50 사이클)보다 7배 이상 높아졌다. FL1 환경에서는 Gen 13 최상위 SKU(9965)로 60% 처리량 증가를 얻되 고CPU 활용도에서 50% 이상의 레이턴시 악화가 발생하여 사용 불가능했다.

Technical Solution

  • FL2 개발: Rust 기반으로 메모리 접근 패턴을 대폭 간소화하여 대용량 L3 캐시 의존성 제거
  • 코어 수에 따른 선형 성능 확장: 캐시 병목 대신 코어 수 증가에 비례하는 성능 향상 구조로 설계
  • AMD Platform Quality of Service(PQOS) 적용: 캐시 및 메모리 대역폭의 세분화된 공유 자원 제어로 리소스 경합 완화
  • Gen 13 하드웨어 스펙: AMD EPYC 5th Gen Turin 기반 192코어/384스레드, DDR5-6400 메모리 대역폭, 세대 대비 32% 전력 효율 개선
  • 하드웨어-소프트웨어 협설계: Cloudflare와 AMD가 성능 카운터 분석(AMD uProf) 및 최적화 실험을 협력하여 진행

Impact

  • 처리량: FL2 + Gen 13 구성으로 Gen 12 대비 2배 달성(60% → 100% 증가)
  • 전력 효율: 동일 랙 전력 예산 내에서 성능 당 전력 소비 50% 개선
  • 레이턴시: SLA 내 유지하면서 저-중간 CPU 활용도에서 레이턴시 증가 없음
  • 랙 처리량: Gen 12 대비 60% 높은 처리량 밀도 달성
  • 코어 수 기준 성능: Gen 13 9965 기준 Gen 12 대비 100% 코어 증가(96C → 192C)에 따른 62% 처리량 증가(FL1), FL2에서는 선형 확장

Key Takeaway

대규모 엣지 인프라에서 다음 세대 하드웨어의 아키텍처 변화(캐시 축소, 코어 증가)에 적응할 때 성능 카운터로 병목을 정확히 진단한 후, 소프트웨어 스택 전면 재설계(FL1 → FL2)를 통해 새로운 하드웨어 특성에 맞춘 메모리 접근 패턴을 구축하는 것이 트레이드오프 없는 성능 향상을 가능하게 한다.


대용량 캐시에 최적화된 기존 소프트웨어 스택이 세대 교체 시 신규 프로세서의 캐시 감소로 인해 레이턴시 악화에 직면했을 때, AMD uProf와 같은 CPU 성능 카운터로 L3 미스율과 DRAM 레이턴시를 정량화하여 근본 원인을 파악한 후, Rust 같은 저수준 제어 언어로 메모리 접근 패턴을 재설계하면 캐시 의존성을 제거하면서도 SLA를 유지한 채 2배 처리량을 달성할 수 있다.

원문 읽기
Launching Cloudflare’s Gen 13 servers: trading cache for cores for 2x edge compute performance | Devpick