피드로 돌아가기
Accelerating Qwen3-8B Agent on Intel® Core™ Ultra with Depth-Pruned Draft Models
Hugging Face BlogHugging Face Blog
AI/ML

Intel과 Qwen이 Depth-Pruned Draft Model과 Speculative Decoding을 결합해 Qwen3-8B 에이전트 추론 속도를 1.4배 향상

Accelerating Qwen3-8B Agent on Intel® Core™ Ultra with Depth-Pruned Draft Models

2025년 9월 29일10intermediate

Context

에이전트 애플리케이션은 멀티스텝 추론과 도구 호출을 수행하므로 토큰 생성량이 증가하여 추론 속도가 응답성에 미치는 영향이 크다. Qwen3-8B는 네이티브 에이전틱 능력을 갖춘 모델이지만 Intel Core Ultra에서의 실행 속도 최적화가 필요했다.

Technical Solution

  • Speculative Decoding 도입: Qwen3-0.6B를 draft model로, Qwen3-8B를 target model로 설정하여 작은 모델이 여러 토큰을 한 번의 forward pass로 제안하고 큰 모델이 한 번의 forward pass로 검증하는 구조로 구성
  • Depth Pruning 적용: Angular distance를 기준으로 기여도 낮은 레이어 6개를 28개 중에서 제거하여 draft model 레이턴시 감소
  • Fine-tuning으로 정확도 복구: Qwen3-8B가 생성한 500k 프롬프트 기반 합성 데이터로 pruned draft model을 fine-tuning하여 품질 유지
  • OpenVINO.GenAI로 구현: target_path, draft_path, device 파라미터로 LLMPipeline 생성 시 draft_model 파라미터 설정으로 speculative decoding 실행
  • 🤗smolagents 통합: Qwen3-8B와 pruned draft를 smolagents 프레임워크와 결합하여 웹 검색, Python 코드 실행 등 멀티스텝 에이전트 워크플로우 지원

Impact

  • Speculative Decoding 단독 적용 시 1.3배 속도 향상
  • Speculative Decoding + Depth Pruning 조합 적용 시 1.4배 속도 향상 (baseline 대비)
  • Depth Pruning으로 draft model 레이턴시 감소에 따른 전체 speedup 향상 입증

Key Takeaway

모델 깊이(레이어 수)가 추론 레이턴시의 주요 요인이므로, speculative decoding 사용 시 draft model에 depth pruning을 적용하면 target model 정확도 손실 없이 전체 추론 속도를 더욱 가속할 수 있다.


AI 에이전트나 멀티스텝 추론이 필요한 로컬 LLM 서비스를 Intel Core Ultra 같은 엣지 디바이스에서 구현할 때, 원본 모델의 일부 레이어를 angular distance 기준으로 제거하고 합성 데이터로 fine-tuning한 축소 모델을 draft로 사용하면 speculative decoding의 속도 향상을 1.3배에서 1.4배 이상으로 끌어올릴 수 있다.

원문 읽기