antirez/ds4 - Metal용 DeepSeek V4 Flash 로컬 추론 엔진

2-bit 양자화 및 KV 디스크 캐싱을 통한 로컬 DS4 Flash 추론 최적화

neo2026년 5월 9일9분advanced

AI 요약

Context

기존 LLM 추론 프레임워크의 과도한 추상화로 인한 하드웨어 자원 낭비와 복잡한 의존성 문제 발생. 특히 표준 PC 및 특정 GPU(AMD RDNA3 등) 환경에서 벤더 지원 부족으로 인한 성능 저하가 심각한 상황.

실천 포인트

1. 대규모 초기 프롬프트가 반복되는 에이전트 워크플로 설계 시 KV 캐시 디스크 저장 전략 검토

2. VRAM 제한 환경에서 모델 크기 확대가 필요할 경우 2-bit 이하 극단적 양자화 모델의 실효성 검증

3. 특정 GPU 가속기 사용 시 범용 라이브러리 대신 벤더 특화 커널 최적화 및 Upstream 병합 가능성 타진

4. 추론 성능 병목 지점이 Prefill인지 Decode인지 구분하여 각각 MTP 및 KV 캐싱 전략을 차등 적용

태그