Dev.toCMP 100-210 Tensor Core 제약을 DP4A/HFMA2 우회로 해결한 Qwen3.5 추론 엔진I wrote a custom CUDA inference engine to run Qwen3.5-27B on $130 mining cardsAI/MLadvanced13 분 소요2026년 5월 3일