피드로 돌아가기
I Fixed My LLM OOM Crashes by Shrinking the Draft Model (Speculative Decoding on Real Hardware)
Dev.toDev.to
AI/ML

Draft Model 최적화 및 KV Cache 조정으로 VRAM 9.3GiB 절감 및 OOM 해결

I Fixed My LLM OOM Crashes by Shrinking the Draft Model (Speculative Decoding on Real Hardware)

Nic Lydon2026년 5월 1일3intermediate

Context

Speculative Decoding 도입 시 Target Model과 Draft Model이 VRAM에 동시 상주함에 따라 메모리 압박 발생. 특히 고정된 4B Draft Model 사용 정책과 Embedding Model의 과도한 Parallelism 설정이 결합되어 가용 메모리를 초과하는 OOM 현상 직면.

Technical Solution

  • MoE 아키텍처 특성을 고려하여 4B Draft Model을 0.6B 모델로 교체함으로써 VRAM 점유율 최소화
  • Embedding Parallelism 설정을 16에서 8로 하향 조정하여 불필요한 KV Cache 사전 할당 메모리 제거
  • p99 사용량인 2,532 토큰을 상회하는 8,192 토큰 컨텍스트 길이를 유지하며 리소스 효율 최적화
  • 정적 추정치가 아닌 rocm-smi 기반의 실제 VRAM 모니터링을 통한 리소스 병목 지점 식별
  • 모델 패밀리별 일괄 적용 정책에서 아키텍처 특성에 맞춘 개별 Draft Model 매칭 전략으로 전환

- Speculative Decoding 적용 시 Target Model과 Draft Model의 합산 VRAM 예산 검토 - KV Cache 사전 할당량이 Parallelism 설정값에 따라 어떻게 변하는지 실측 - MoE 모델의 경우 무조건 큰 Draft Model보다 아키텍처에 최적화된 경량 모델 검토 - 추정치가 아닌 실제 런타임 모니터링 도구(예: rocm-smi, nvidia-smi) 기반의 VRAM 프로파일링 수행

원문 읽기