피드로 돌아가기
Cloudflare BlogInfrastructure
원문 읽기
Inside Gen 13: how we built our most powerful server yet
Cloudflare가 FL2 소프트웨어 스택 마이그레이션에 맞춰 Gen 13 서버로 하드웨어를 재설계해 처리량 2배 증대 및 전력효율 50% 개선
AI 요약
Context
Cloudflare는 FL1에서 Rust 기반의 FL2로 요청 처리 계층을 완전히 재작성했다. 새로운 소프트웨어 스택의 워크로드 특성 변화에 맞춰 기존 Gen 12 서버의 하드웨어 한계를 극복해야 했다.
Technical Solution
- CPU 선택: AMD EPYC 9684X Genoa-X (96코어)에서 AMD EPYC 9965 Turin (192코어)으로 변경하여 코어 수 2배 증대
- 메모리 업그레이드: DDR5-4800 384GB에서 DDR5-6400 768GB로 확대하여 메모리 대역폭 증가
- 스토리지 확장: E1.S NVMe 2개(15.36TB)에서 3개(23.04TB)로 확대
- 네트워크 인터페이스: 듀얼 25GbE에서 듀얼 100GbE로 업그레이드하여 네트워크 대역폭 4배 증대
- 냉각 설계: 2U 섀시에 80mm 팬 4개에서 5개로 증가시켜 500W CPU의 열 부하 관리
- PCIe 가속기 지원: Gen 12의 단일 double-width GPU 제한에서 Gen 13으로 dual double-width PCIe 카드 지원으로 변경
- 보안 강화: PCIe 암호화 하드웨어 지원 추가
Impact
- 처리량: Gen 12 대비 최대 2배 증대 (레이턴시 SLA 준수)
- 전력효율: 성능/와트 기준 최대 50% 개선
- 랙 효율: 랙 전력 예산 동일 조건에서 처리량 60% 증대
- 메모리 용량: 2배 증대
- 스토리지 용량: 1.5배 증대
- 네트워크 대역폭: 4배 증대
Key Takeaway
새로운 소프트웨어 스택의 워크로드 특성(L3 캐시 의존도 감소, 코어 수에 따른 선형 확장성)을 정확히 파악하고 하드웨어 설계 결정에 반영하면, 캐시 용량 감소라는 트레이드오프에도 불구하고 전체 시스템 성능과 TCO를 동시에 최적화할 수 있다. 운영 복잡도 감소, 향후 확장성 등 정량화되지 않은 요소까지 종합 평가하는 다층적 최적화 접근이 중요하다.
실천 포인트
대규모 인프라 설계 팀에서 소프트웨어 스택 마이그레이션 후 하드웨어를 선정할 때, 기존 시스템의 병목 지표(캐시 히트율, 메모리 대역폭 활용도, 네트워크 포화도)를 재측정해야 한다. 새로운 워크로드 패턴이 레거시 메트릭과 상반될 수 있으므로 프로덕션 환경에서 복수 후보 사양을 직접 평가하면 최대 100% 성능 향상처럼 예상을 크게 초과하는 결과를 얻을 수 있다.