피드로 돌아가기
Hacker NewsAI/ML
원문 읽기
M4 24GB 환경에서 Qwen 3.5 9B 모델로 40 TPS 및 128K Context 구현
Running local models on an M4 with 24GB memory
AI 요약
Context
SOTA 모델에 대한 의존도를 낮추고 데이터 프라이버시를 확보하기 위한 Local LLM 환경 구축 시도. 제한된 Unified Memory(24GB) 내에서 OS 및 기타 Electron 앱의 가용 자원을 유지하며 고성능 추론 모델을 구동해야 하는 제약 상황 분석.
Technical Solution
- LM Studio 기반의 추론 환경을 구축하여 모델 가용성과 메모리 효율성 최적화
- Qwen 3.5-9B (Q4_K_S Quantization) 모델 채택을 통해 메모리 점유율을 낮추면서도 추론 성능 유지
- Prompt Template에
enable_thinking = true설정을 추가하여 복잡한 코딩 태스크 수행을 위한 Reasoning 능력 활성화 - Temperature(0.6), Top_p(0.95), Top_k(20) 등 하이퍼파라미터 튜닝을 통한 정밀한 코드 생성 제어
- 128K Context Window 설정을 통해 대규모 코드베이스 및 문서 참조 능력 확보
- pi 및 OpenCode 인터페이스를 연동하여 Local LLM의 추론 결과를 실제 개발 워크플로우에 통합
실천 포인트
1. Unified Memory 용량을 고려하여 모델 Quantization 레벨(Q4 등) 선정
2. Reasoning 모델 사용 시 Prompt Template 내 Thinking 모드 활성화 여부 확인
3. Local LLM의 한계를 보완하기 위해 One-shot 생성보다 단계적 인터랙션 설계
4. 추론 속도(TPS)와 Context Window 크기 간의 Trade-off 분석 및 설정 최적화