Dev.toChannels-last 포맷 전환으로 A100 추론 지연 시간 22% 단축Channels-last memory format cut our conv backbone latency 22%AI/MLintermediate12 분 소요2026년 6월 24일
Dev.toCMP 100-210 Tensor Core 제약을 DP4A/HFMA2 우회로 해결한 Qwen3.5 추론 엔진I wrote a custom CUDA inference engine to run Qwen3.5-27B on $130 mining cardsAI/MLadvanced13 분 소요2026년 5월 3일