피드로 돌아가기
Dev.toAI/ML
원문 읽기
저사양 CPU 환경에서 Ollama와 커널 튜닝을 통한 Local AI 구동 최적화
No GPU? No problem!, running local AI efficiently on my CPU.
AI 요약
Context
GPU 부재 및 제한된 하드웨어 리소스(Intel i5-7200U, 8GB RAM)로 인한 Local LLM 구동 제약 발생. 특히 Root 파티션 용량 부족과 추론 시 CPU 100% 점유로 인한 발열 및 성능 저하가 주요 병목 지점으로 식별됨.
Technical Solution
- Symlink를 활용하여 모델 저장 경로를 Root(/)에서 대용량 보조 저장소(/run/media/...)로 변경함으로써 디스크 Full 에러 해결
- Modelfile 정의를 통해 Temperature(0.25)와 Top_p(0.9)를 낮게 설정하여 저사양 환경에서의 추론 정확도 및 결정론적 응답 확보
- num_ctx를 4096으로 제한하고 repeat_penalty(1.12)를 적용하여 메모리 효율성 증대 및 무한 루프 방지
- cpupower를 통한 CPU Governor 'performance' 모드 강제 설정으로 클럭 변동에 따른 Latency Spike 제거
- tuned-adm의 throughput-performance 프로파일 적용을 통한 Disk I/O 및 시스템 스케줄링 최적화
- 모델 크기와 지능의 Trade-off 분석을 통해 llama3.2:3b(2GB) 및 phi3:mini 등 리소스 최적화 모델 선별 채택
실천 포인트
- 저장 공간 부족 시 Symlink를 활용한 데이터 경로 분리 검토 - CPU 추론 환경에서 Latency 최소화를 위해 OS 수준의 CPU Governor 설정 확인 - 저사양 디바이스 타겟팅 시 Modelfile의 파라미터(Temperature, Context Window) 최적화 필수 - 하드웨어 제약 조건에 따른 모델 파라미터 규모(1B, 3B 등)의 정밀한 선택