Dev.toSpeculative Decoding의 한계 돌파, DFlash로 구현한 병렬 토큰 생성Speculative Decoding’s Ceiling Just Moved With DFlashAI/MLadvanced21 분 소요1일 전
Hugging Face BlogSGLang이 Hugging Face transformers를 백엔드로 통합해 네이티브 지원되지 않는 모델을 즉시 고성능 추론으로 실행 가능Transformers backend integration in SGLangBackendintermediate10 분 소요2025년 6월 23일
Hugging Face BlogOpen R1 프로젝트가 512개 H100 GPU에서 SGLang을 도입해 생성 속도를 2배 향상시켜 800k개의 DeepSeek R1 추론 트레이스 생성Open R1: Update #2AI/MLintermediate29 분 소요2025년 2월 10일