#cuda 아티클 모음

GeekNews

CUDA-oxide: Nvidia의 공식 Rust-to-CUDA 컴파일러

Rust-to-PTX 직접 컴파일로 CUDA 메모리 안전성 확보

AI/MLadvanced14 분 소요1일 전

Dev.to

Rust 기반 CUDA 커널 제어와 LLM GPU 스케줄링 최적화

RTX 5080 Launched, Rust for CUDA, & LLM GPU Scheduling Deep Dive

AI/MLadvanced10 분 소요2일 전

Dev.to

DeepSeek-V4-Flash 524k Context에서 85 tok/s 달성 및 CUDA-first 런타임 구현

DeepSeek-V4-Flash Benchmarks, FlashRT CUDA Runtime, & V100 LLM Performance

AI/MLadvanced11 분 소요3일 전

Dev.to

llama.cpp 직결을 통한 제어권 확보 및 Qwen 3.5 206.7 tok/s 달성

Model Showdown Round 3: Ditching Ollama in Favor of llama.cpp

AI/MLintermediate36 분 소요3일 전

Dev.to

CDNA 4 기반 MI350P PCIe 출시 및 CUDA WarpReduction 최적화

AMD MI350P, CUDA WarpReduction, & Adrenalin 26.5.1 Driver Updates

AI/MLadvanced9 분 소요6일 전

Dev.to

C++ 백엔드 기반의 Python Interface를 통한 AI 개발 생산성 극대화

Why Python Became the Default Language for AI?

AI/MLintermediate15 분 소요2026년 5월 6일

Dev.to

CMP 100-210 Tensor Core 제약을 DP4A/HFMA2 우회로 해결한 Qwen3.5 추론 엔진

I wrote a custom CUDA inference engine to run Qwen3.5-27B on $130 mining cards

AI/MLadvanced13 분 소요2026년 5월 3일

Dev.to

RGB-D 뎁스맵의 연속적 그래디언트를 이산적 3D Symbolic Motif로 변환한 기하학적 분석 모델

NCT Depth Motif: Exploring Symbolic 3D Motifs for RGB-D Depth Maps

AI/MLadvanced4 분 소요2026년 5월 2일

Dev.to

Parallel Computing 기반 GPU Cloud 도입을 통한 AI 학습 시간의 획기적 단축

Running AI Models on GPU Cloud Servers: A Beginner Guide

AI/MLbeginner23 분 소요2026년 4월 18일

Dev.to

MCP-native eBPF 설계를 통한 GPU 커널 추적 및 30초 내 Root Cause 분석

MCP as Observability Interface: Connecting AI Agents to Kernel Tracepoints

Infrastructureadvanced15 분 소요2026년 4월 16일

Dev.to

GPU Core/VRAM/Power 지표 교차 분석을 통한 DL 파이프라인 병목 제거

A Complete Guide to Real-Time GPU Usage Monitoring

AI/MLintermediate48 분 소요2026년 4월 15일

Hacker News

eBPF 기반 MCP-native 구조로 GPU 성능 분석 30초 내 완료

MCP as Observability Interface: Connecting AI Agents to Kernel Tracepoints

Infrastructureadvanced14 분 소요2026년 4월 15일

GeekNews

pip install torch 한 줄로 끝낸다 — Python 패키징의 오랜 숙제, 드디어 풀리나

Wheel Next를 통한 PyTorch 바이너리 900MB → 200MB 감축 및 HW 최적화

Infrastructureadvanced10 분 소요2026년 4월 13일

Dev.to

6 TOPS NPU 기반 RK3588과 CUDA 생태계 Jetson Orin Nano의 Edge AI 최적화 분석

RK3588 vs Jetson Orin Nano: Real-World comparison

AI/MLintermediate8 분 소요2026년 4월 11일

Dev.to

TTFC 35초에서 50ms로, CUDA Megakernel 기반 Qwen3-TTS 최적화

I Made a Single CUDA Kernel Speak: Streaming Qwen3-TTS at 50ms Latency on an RTX 5090

AI/MLadvanced33 분 소요2026년 4월 9일

Dev.to

Whisper와 CUDA로 구현하는 초저지연 로컬 STT 시스템

Achieving Neuro‑Sama‑Tier Speech‑to‑Text for Your Local AI Companion (Whisper + CUDA + LivinGrimoire)

AI/MLintermediate13 분 소요2026년 4월 7일

Dev.to

Jetson AGX Orin 환경의 최적화된 Docker 컨테이너 운용 가이드

[Beginner] Docker Tutorial for jetson-containers on Jetson AGX Orin

Infrastructurebeginner21 분 소요2026년 4월 5일

Dev.to

Gemma 4 출시 후 2시간 만에 로컬 프로덕션 환경 구축 및 버그 수정 적용 기록

Google Released Gemma 4 Yesterday. I Had It Fixing Real Bugs by Lunch.

AI/MLadvanced14 분 소요2026년 4월 3일

Dev.to

저자가 llama.cpp RPC를 활용하여 이기종 GPU 환경(NVIDIA DGX Spark와 Mac Studio)에서 10GbE 직접 연결 기반 분산 LLM 추론을 구현한 과정과 성능 결과를 기술함

Distributed LLM Inference Across NVIDIA Blackwell and Apple Silicon Over 10GbE

AI/MLadvanced12 분 소요2026년 3월 31일

Dev.to

Linux AI 서버 관리자가 fuser 명령어로 고아 CUDA 프로세스를 식별해 GPU 메모리 즉시 해제

Fix Zombie VRAM: Clear GPU Memory Without Rebooting

DevOpsintermediate11 분 소요2026년 3월 28일