Heterogeneous GPU 환경에서 MoE 모델과 Graph Splitting을 통한 추론 속도 3~4배 가속

Upgrading Kiwi-chan’s Brain: Pushing a 30GB "Frankenstein" GPU Rig to the Limit with Qwen 3.6-35B-A3B

kiwi_tech2026년 4월 29일4분advanced

AI 요약

Context

서로 다른 VRAM 및 대역폭을 가진 4장의 소비자용 GPU(RTX 3060/3050, GTX 1660 시리즈)로 구성된 30GB VRAM 환경의 제약 상황. Dense 모델 사용 시 가장 낮은 메모리 대역폭을 가진 GPU가 전체 병목 지점이 되어 추론 성능을 저하시키는 구조적 한계 직면.

Technical Solution

Dense 아키텍처 대비 토큰당 활성 파라미터를 3.5B로 제한한 Qwen 3.6-35B-A3B MoE 모델 채택을 통한 계산 부하 감소
단순 Layer Split 방식에서 벗어나 Tensor Parallelism을 구현한 ik_llama.cpp의 Split Mode Graph 도입으로 모든 GPU 연산 유닛의 동시 포화 상태 달성
하드웨어 간 대역폭 불균형을 해소하기 위해 -ts 2:1:1:1 형태의 Manual Tensor Split 설정을 통한 연산 비중 최적화
8-bit KV Cache Quantization(-ctk q8_0, -ctv q8_0) 적용으로 VRAM 소비를 최적화하여 Context Window를 32K~64K까지 확장
CJK 최적화 Tokenizer 활용을 통한 일본어 텍스트의 토큰 효율성 증대 및 메모리 점유율 감소
모델 내장 Thinking Mode를 통한 논리적 단계 맵핑으로 Autonomous Agent의 Function Calling 정확도 향상

실천 포인트

- Mixed-GPU 환경 구축 시 가장 성능이 낮은 카드의 대역폭을 기준으로 Bottle-neck 분석 실시 - llama.cpp 사용 시 단순 Layer Split 대신 Tensor Parallelism 지원 포크(ik_llama.cpp 등) 검토 - VRAM 부족 시 모델 양자화 외에 KV Cache Quantization을 통한 Context Window 확보 전략 적용 - 하드웨어 성능 차이에 따른 Manual Tensor Split 비율 설정으로 연산 밸런싱 최적화

태그

#VRAM Optimization #Tensor Parallelism #KV Cache Quantization #Heterogeneous Computing #Mixture of Experts

원문 읽기