#distributed-training 아티클 모음

Hugging Face Blog

H100/B200 기반 고대역폭 네트워크 및 분산 스토리지 통합 설계

Building Blocks for Foundation Model Training and Inference on AWS

AI/MLadvanced64 분 소요2일 전

Dev.to

HPC Cluster 기반 Distributed Computing을 통한 AI 모델 학습 가속화

How HPC Clusters Accelerate AI/ML Training

Infrastructureintermediate9 분 소요4일 전

Hacker News

WAN 환경에서 동기화 병목 제거로 학습 속도 20배 향상한 Decoupled DiLoCo

Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

AI/MLadvanced4 분 소요2026년 4월 27일

Dev.to

Production Scalability를 위한 TensorFlow의 계층적 ML 에코시스템 설계

TensorFlow Explained in Simple Language

AI/MLintermediate14 분 소요2026년 4월 25일

Dev.to

eBPF 기반 Fan-out 쿼리로 Distributed Training Stall 원인 1초 내 식별

One Query, Four GPUs: Tracing a Distributed Training Stall Across Nodes

Infrastructureadvanced20 분 소요2026년 4월 13일

Dev.to

ML Tax 제거를 위한 Agentic ML 기반 자율형 워크플로우 전환

Agentic ML: Moving from Manual Pipelines to Autonomous AI

AI/MLadvanced11 분 소요2026년 4월 13일

Hugging Face Blog

Snowflake AI Research가 Ulysses Sequence Parallelism으로 어텐션 헤드를 GPU 간 분산 처리하여 64K 토큰에서 3.7배 처리량 증가 달성

Ulysses Sequence Parallelism: Training with Million-Token Contexts

AI/MLadvanced38 분 소요2026년 3월 9일

Hugging Face Blog

Transformers 라이브러리가 MoE 모델을 위한 무게 로딩 파이프라인과 분산 실행 모델을 재설계해 21B 파라미터 모델을 3.6B 활성 파라미터로 실행

Mixture of Experts (MoEs) in Transformers

AI/MLadvanced26 분 소요2026년 2월 26일

Hugging Face Blog

Hugging Face가 datasets 라이브러리의 스트리밍 백엔드를 재설계해 초기 요청을 100배 감소, 데이터 파일 해석 시간을 10배 단축, 처리 속도를 2배 향상

Streaming datasets: 100x More Efficient

Backendintermediate15 분 소요2025년 10월 27일

Hugging Face Blog

Hugging Face와 Axolotl이 Accelerate 라이브러리에 ND-Parallel 통합으로 여러 GPU 간 복합 병렬화 전략 조합을 설정 파일 몇 줄로 구현 가능하게 구축

Accelerate ND-Parallel: A guide to Efficient Multi-GPU Training

Backendintermediate50 분 소요2025년 8월 8일

Hugging Face Blog

TRL이 vLLM을 분리된 서버 대신 같은 GPU에서 공동 실행하도록 변경해 GRPO 학습 중 유휴 GPU 시간 제거

No GPU left behind: Unlocking Efficiency with Co-located vLLM in TRL

AI/MLintermediate36 분 소요2025년 6월 3일

Hugging Face Blog

ServiceNow Research가 LLM 강화학습에서 인플라이트 가중치 업데이트 도입으로 추론 처리량과 정책 기반 데이터 수집 간 트레이드오프 해결

PipelineRL

AI/MLadvanced18 분 소요2025년 4월 25일

Hugging Face Blog

Hugging Face가 Accelerate를 1.0 정식 버전으로 출시하며 6개 하드웨어 가속기 지원 및 안정화된 다중 GPU/TPU 훈련 API 제공

Accelerate 1.0.0

Backendintermediate13 분 소요2024년 9월 13일

Hugging Face Blog

Intel과 MILA가 ProtST 단백질 언어 모델을 Intel Gaudi 2에 최적화하여 추론 1.76배, 파인튜닝 2.92배 속도 향상 달성

Accelerating Protein Language Model ProtST on Intel Gaudi 2

AI/MLintermediate7 분 소요2024년 7월 3일

Hugging Face Blog

Hugging Face Accelerate가 FSDP의 정밀도 처리를 DeepSpeed와 일치하도록 수정해 두 프레임워크 간 학습 결과 편차 제거

From DeepSpeed to FSDP and Back Again with Hugging Face Accelerate

Backendintermediate15 분 소요2024년 6월 13일

Hugging Face Blog

Hugging Face가 PyTorch FSDP와 meta device를 활용한 단계별 모델 로딩으로 Llama 2 70B 파인튜닝 시 CPU RAM 사용량을 2TB에서 1.5GB 수준으로 감소

Fine-tuning Llama 2 70B using PyTorch FSDP

AI/MLadvanced29 분 소요2023년 9월 13일

Hugging Face Blog

Hugging Face와 Intel이 Sapphire Rapids CPU의 AMX 하드웨어 가속기를 활용해 GPU 없이 Stable Diffusion 모델을 분산 fine-tuning하는 방법 구현

Fine-tuning Stable Diffusion models on Intel CPUs

AI/MLintermediate23 분 소요2023년 7월 14일

Hugging Face Blog

Hugging Face와 Microsoft가 Optimum + ONNX Runtime 통합으로 트랜스포머 모델 학습 속도를 39~130% 가속화

Optimum+ONNX Runtime - Easier, Faster training for your Hugging Face models

AI/MLintermediate17 분 소요2023년 1월 24일

컬리 기술블로그

AWS MLOps 분산학습 워크숍 방문기

AWS MLOps 워크숍 참석을 통해 SageMaker의 ETL, Feature Store, Model Registry, Model Monitoring 등 통합 기능과 Data Parallelism/Model Parallelism 기반 분산학습 전략 확인

AI/MLintermediate9 분 소요2023년 1월 10일

Hugging Face Blog

Intel이 Sapphire Rapids CPU의 AMX 명령어 세트를 IPEX 라이브러리로 자동 활용해 PyTorch Transformer 분산 학습을 4개 노드에서 선형 스케일링 달성

Accelerating PyTorch Transformers with Intel Sapphire Rapids - part 1

AI/MLintermediate22 분 소요2023년 1월 2일