CMP 100-210 Tensor Core 제약을 DP4A/HFMA2 우회로 해결한 Qwen3.5 추론 엔진

I wrote a custom CUDA inference engine to run Qwen3.5-27B on $130 mining cards

Haru-neo2026년 5월 3일5분advanced

AI 요약

Context

NVIDIA CMP 100-210 GPU의 Tensor Core가 하드웨어 수준(e-fuse)에서 64배 throttling 되어 cuBLAS 기반 표준 LLM 스택 사용 불가. PCIe Gen1 x1 제한 및 P2P 통신 차단으로 인한 데이터 전송 병목과 전용 프로파일러 사용 불가라는 극심한 제약 상황.

Technical Solution

Tensor Core 대신 Full-speed 작동하는 DP4A(int8 dot product) 및 HFMA2(fp16 FMA) 경로로 연산 라우팅 변경
Qwen3.5/3.6의 GDN-Attention 하이브리드 구조에 최적화된 sm_70 전용 커스텀 CUDA 커널 설계
P2P 통신 불가 해결을 위해 Pinned Host Memory 기반의 순차적 Hidden State 버퍼링 및 워커 스레드 구조 도입
SM 활용도 극대화를 위한 Split-K FlashAttention 적용 및 fp32 partial accumulation을 통한 수치적 드리프트 방지
3-bit Walsh-Hadamard 및 Lloyd-Max KV Cache 적용으로 27B 모델의 256K Context를 48GB HBM2 내에 적재

실천 포인트

- 하드웨어 제약 시 Tensor Core 외 DP4A 등 Alternative 연산 명령어 지원 여부 확인 - Multi-GPU 환경에서 P2P 통신 불가 시 Pinned Memory 기반의 비동기 전송 전략 검토 - 저정밀도 연산(int8, 3-bit) 도입 시 특정 언어(한국어 등)의 Argmax 안정성 검증 절차 마련 - FlashAttention의 SM 활용도 저하시 Split-K 기법을 통한 연산 분산 및 fp32 축적을 통한 정밀도 유지

태그

#HBM2 #Quantization #Tensor Core #FlashAttention #CUDA

원문 읽기