피드로 돌아가기
Distributed LLM Inference Across NVIDIA Blackwell and Apple Silicon Over 10GbE
Dev.toDev.to
AI/ML

저자가 llama.cpp RPC를 활용하여 이기종 GPU 환경(NVIDIA DGX Spark와 Mac Studio)에서 10GbE 직접 연결 기반 분산 LLM 추론을 구현한 과정과 성능 결과를 기술함

Distributed LLM Inference Across NVIDIA Blackwell and Apple Silicon Over 10GbE

Kunal Jaiswal2026년 3월 31일5advanced

Context

NVIDIA DGX Spark(GB10 Blackwell, 120 GB)와 Mac Studio(M2 Ultra, 128 GB)는 각각 고유한 GPU 백엔드(CUDA와 Metal)를 사용함. 단일 머신의 메모리 용량으로는 100B 이상 파라미터 모델 실행이 불가능하여 이기종 GPU 간 분산 추론 필요성이 대두됨.

Technical Solution

  • [DGX Spark와 Mac Studio] → [CAT6A 케이블로 10GbE 직접 연결](대역폭 9.41 Gbps 확인) 적용
  • [llaama.cpp RPC] → [CUDA와 Metal 백엔드 간 원격 프로시저 콜 구현](동일 ML 런타임 의존성 제거) 적용
  • [DGX Spark] → [RPC 서버 실행](50052 포트로 raw compute 제공) 적용
  • [Mac Studio] → [llama-server 실행](--rpc 옵션으로 원격 레이어 오프로딩) 적용
  • [GGUF 모델] → [Mac Studio에만 파일 존재](llaama.cpp가 가용 메모리 기반 자동 레이어 분할) 적용

Impact

Qwen2.5-7B(Q4_K_M)에서 RPC 활용 시 프롬프트 처리 속도가 76 tok/s에서 318 tok/s로 4.2배 향상됨. 토큰 생성 속도는 92 tok/s에서 53 tok/s로 약 42% 감소함. Qwen2.5-72B에서 RPC 활용 시 프롬프트 처리는 28 tok/s에서 30 tok/s로 미미한 개선, 토큰 생성은 11 tok/s에서 6 tok/s로 약 45% 감소함.

Key Takeaway

Prefill 연산은 병렬 처리가 가능하여 분산 컴퓨팅 이점을 활용하지만, decode 연산은 네트워크 지연으로 인해 분산 환경에서 오히려 성능 저하 발생함. 이 특성을 활용한 분리형 아키텍처(프롬프트는 DGX, 디코딩은 Mac Studio)로 최적화 가능함.


[이기종 GPU 환경(Mac Studio + DGX Spark)]에서 [llaama.cpp RPC 분산 추론]을 [10GbE 직접 연결 및 레이어 오프로딩 방식]으로 적용 시 [단일 머신 메모리 제한을 초과하는 200B+ MoE 모델 실행 가능하나 토큰 생성 속도 저하 발생]

원문 읽기