피드로 돌아가기
Dev.toAI/ML
원문 읽기
Pure CPU 환경에서 io_uring 기반으로 Mixtral 8x7B 21.38 TPS 달성
Running Mixtral 8x7B at 21+ TPS on Pure CPU via io_uring and Predictive Caching
AI 요약
Context
고성능 MoE 모델 추론 시 VRAM 비용 부담을 줄이기 위해 GPU 없이 CPU와 SSD만으로 구동하는 환경 구축 시도. 전통적인 추론 방식은 모델 전체를 고대역폭 메모리에 상주시켜야 하는 제약으로 인해 하드웨어 비용 상승 초래.
Technical Solution
- Micro-Expert-Router(MER) 설계를 통한 CPU 중심의 고효율 추론 엔진 구현
- kernel-level io_uring 및 O_DIRECT 비동기 큐 적용으로 OS 파일 시스템 오버헤드 제거 및 SSD I/O 병목 최소화
- Predictive Caching 메커니즘을 도입하여 Expert 가중치의 Hit Rate를 97.46%까지 확보
- AVX-512 Vector Extension 활용으로 FFN 레이어의 CPU 연산 가속화
- 4-bit Quantization(q4_0) 적용을 통해 메모리 풋프린트 최적화 및 데이터 전송 효율 증대
- Top-2 Expert Routing 구조에 최적화된 메모리 슬롯 관리로 I/O 대기 시간을 전체 사이클의 12.37% 수준으로 억제
Impact
- Pure CPU 환경에서 5,000-token 컨텍스트 윈도우 기준 21.38 TPS 지속 달성
- Expert 가중치 캐시 Hit Rate 97.46% 기록
- I/O 대기 시간(io_wait) 5,772.7us, 연산 시간(compute) 40,850.5us의 정밀한 처리 분배 확인
Key Takeaway
저수준 시스템 엔지니어링(io_uring, AVX-512)과 예측 캐싱 전략을 결합함으로써 고가의 VRAM 없이도 Commodity Hardware 기반의 고성능 추론 시스템 설계가 가능함을 입증.
실천 포인트
1. 대규모 파라미터 모델의 CPU 추론 시 OS 커널의 I/O 오버헤드를 제거하기 위해 io_uring 도입 검토
2. MoE 모델의 특성을 활용한 예측 기반 가중치 프리페칭(Prefetching) 로직 구현으로 I/O 병목 해결
3. CPU 연산 최적화를 위해 하드웨어 가속 명령집합(AVX-512 등)의 native 지원 여부 확인