Dev.to저자가 llama.cpp RPC를 활용하여 이기종 GPU 환경(NVIDIA DGX Spark와 Mac Studio)에서 10GbE 직접 연결 기반 분산 LLM 추론을 구현한 과정과 성능 결과를 기술함Distributed LLM Inference Across NVIDIA Blackwell and Apple Silicon Over 10GbEAI/MLadvanced12 분 소요2026년 3월 31일