피드로 돌아가기
antirez/ds4 - Metal용 DeepSeek V4 Flash 로컬 추론 엔진
GeekNewsGeekNews
AI/ML

antirez/ds4 - Metal용 DeepSeek V4 Flash 로컬 추론 엔진

2-bit 양자화 및 KV 디스크 캐싱을 통한 로컬 DS4 Flash 추론 최적화

neo2026년 5월 9일9advanced

Context

기존 LLM 추론 프레임워크의 과도한 추상화로 인한 하드웨어 자원 낭비와 복잡한 의존성 문제 발생. 특히 표준 PC 및 특정 GPU(AMD RDNA3 등) 환경에서 벤더 지원 부족으로 인한 성능 저하가 심각한 상황.

Technical Solution

  • 하드웨어/모델 특화 초최적화 엔진 설계를 통한 추상화 계층 제거 및 연산 효율 극대화
  • 2-bit 양자화 모델 적용으로 VRAM 점유율을 낮추고 대규모 파라미터 모델의 로컬 실행 가능성 확보
  • --kv-disk-dir 기반의 디스크 KV 캐시 구현으로 대규모 시스템 프롬프트의 반복적인 Prefill 연산 제거
  • W8A8-INT8 튜닝 및 자동 반복 최적화를 통한 GPU 커널 수준의 실행 속도 개선
  • MTP(Multi-Token Prediction) 및 DFlash 최적화 기법 도입을 통한 Decode 속도 향상

1. 대규모 초기 프롬프트가 반복되는 에이전트 워크플로 설계 시 KV 캐시 디스크 저장 전략 검토

2. VRAM 제한 환경에서 모델 크기 확대가 필요할 경우 2-bit 이하 극단적 양자화 모델의 실효성 검증

3. 특정 GPU 가속기 사용 시 범용 라이브러리 대신 벤더 특화 커널 최적화 및 Upstream 병합 가능성 타진

4. 추론 성능 병목 지점이 Prefill인지 Decode인지 구분하여 각각 MTP 및 KV 캐싱 전략을 차등 적용

원문 읽기