#onnx-runtime 아티클 모음

Dev.to

WebGPU 기반 ONNX Runtime 도입을 통한 로컬 AI 파이프라인의 브라우저 단일화

Subtitles From a YouTube Link Without Leaving the Browser

AI/MLintermediate6 분 소요2026년 4월 19일

Dev.to

VAD 및 모델 최적화로 Whisper 연산 60% 절감 및 500ms 저지연 실시간 분석 구현

Real-Time Speech, Audio, and Facial Analysis in Production AI Systems

AI/MLadvanced20 분 소요2026년 4월 13일

Dev.to

Inference 최적화를 통한 DistilBERT 지연시간 750ms에서 280ms로 단축

Nobody Tells You This About Slow Transformer Models — I Fixed Mine in 3 Steps

AI/MLintermediate20 분 소요2026년 4월 11일

Dev.to

서버 비용 0원, WebGPU로 구현한 브라우저 기반 AI 배경 제거 도구

Building a Browser-Based AI Background Removal Tool

AI/MLintermediate19 분 소요2026년 4월 9일

Dev.to

S24 Ultra에서 Phi-4-mini 온디바이스 LLM 구현 및 NPU 최적화 분투기

I Started Building a Roguelike RPG — Powered by On-Device AI #2

AI/MLadvanced13 분 소요2026년 4월 3일

Dev.to

Kreuzberg가 Docling의 레이아웃 모델을 Rust 네이티브 파이프라인에 통합해 처리 속도 2.8배 향상 달성

Document Structure Extraction with Kreuzberg

AI/MLadvanced23 분 소요2026년 3월 31일

Dev.to

Xaden가 Whisper.cpp + Ollama + Kokoro ONNX를 조합하여 Apple Silicon Mac에서 클라우드 API 없이 완전 로컬 음성 AI 스택 구축, TTS 콜드 스타트 지연 9초 → 300ms로 단축

Building a Local Voice AI Stack: Whisper + Ollama + Kokoro TTS on Apple Silicon

AI/MLintermediate15 분 소요2026년 3월 27일

Dev.to

WebGPU와 WebAssembly를 조합해 브라우저에서 GPU 병렬 처리로 AI 모델 추론 속도를 단일 스레드 JavaScript의 수천 배로 향상

Supercharge Your Web Apps: Hardware Acceleration with WebGPU and WebAssembly

Frontendintermediate16 분 소요2026년 3월 25일

Hugging Face Blog

Transformers.js가 WebGPU 런타임을 C++로 재구현하고 빌드 시간을 2초에서 200ms로 단축하며 번들 크기를 53% 감소

Transformers.js v4 Preview: Now Available on NPM!

AI/MLintermediate15 분 소요2026년 2월 9일

Hugging Face Blog

Hugging Face와 Microsoft가 Azure Model Catalog에 Llama 3, Mistral 7B 등 주요 오픈 LLM 추가 및 AMD MI300X GPU 최적화로 1-click 배포 및 고성능 추론 환경 제공

From cloud to developers: Hugging Face and Microsoft Deepen Collaboration

Backendintermediate9 분 소요2024년 5월 21일

Hugging Face Blog

Microsoft가 ONNX Runtime과 Olive를 활용해 SD Turbo와 SDXL Turbo 추론 성능을 SDXL Turbo 기준 229%, SD Turbo 기준 120% 향상

Accelerating SD Turbo and SDXL Turbo Inference with ONNX Runtime and Olive

AI/MLintermediate19 분 소요2024년 1월 15일

Hugging Face Blog

Microsoft가 ONNX Runtime으로 Hugging Face의 130,000개 이상 모델을 최적화해 Whisper-tiny 모델의 추론 레이턴시를 PyTorch 대비 74.30% 감소

Accelerating over 130,000 Hugging Face models with ONNX Runtime

AI/MLintermediate3 분 소요2023년 10월 4일

Hugging Face Blog

Hugging Face와 Microsoft가 Optimum + ONNX Runtime 통합으로 트랜스포머 모델 학습 속도를 39~130% 가속화

Optimum+ONNX Runtime - Easier, Faster training for your Hugging Face models

AI/MLintermediate17 분 소요2023년 1월 24일

Hugging Face Blog

Hugging Face가 Optimum 1.2에서 ONNX Runtime 기반 추론 파이프라인을 추가해 Transformer 모델의 추론 속도 가속화

Accelerated Inference with Optimum and Transformers Pipelines

AI/MLintermediate37 분 소요2022년 5월 10일

Hugging Face Blog

Hugging Face가 BERT 모델 CPU 추론 성능 벤치마킹 프레임워크를 재구성하여 PyTorch, TensorFlow, TorchScript, XLA, ONNX Runtime 등 4가지 런타임 간 비교 분석 가능

Scaling-up BERT Inference on CPU (Part 1)

Backendintermediate52 분 소요2021년 4월 20일

Hugging Face Blog

Hugging Face가 라이브러리 최적화, 컴파일 기반 그래프 최적화, 하드웨어별 튜닝을 단계적으로 적용해 Transformer 추론 속도 100배 향상

How we sped up transformer inference 100x for 🤗 API customers

AI/MLadvanced10 분 소요2021년 1월 18일