피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Jetson AGX Orin에서 70B LLM 구동을 위한 50GB NVMe Swap 최적화
Creating a 50 GB Swap File on Jetson AGX Orin (Root on NVMe)
AI 요약
Context
64GB 통합 메모리 환경에서 34B~70B 파라미터 대형 언어 모델 구동 시 메모리 부족 현상 발생. 물리 RAM 한계를 초과하는 모델 로드 시 즉각적인 Out-Of-Memory(OOM) 오류로 인한 시스템 불안정성 존재.
Technical Solution
- I/O 성능 극대화를 위해 eMMC나 USB 대신 초당 약 2000MB 전송 속도를 가진 NVMe SSD 루트 파일시스템에 Swap 파일 배치
- fallocate 유틸리티를 통한 50GB 공간 사전 할당으로 효율적인 디스크 공간 확보 및 파일 시스템 단편화 방지
- chmod 600 권한 설정을 통해 메모리 데이터의 디스크 유출을 차단하는 root 전용 읽기/쓰기 보안 설계
- /etc/fstab 설정을 통한 시스템 재부팅 후에도 가상 메모리가 자동 활성화되는 영속성 구성
- vm.swappiness 값을 10으로 하향 조정하여 물리 RAM과 zram을 우선 사용하고 NVMe Swap으로의 페이지 교체를 최소화하는 전략
- Physical RAM(64GB) $\rightarrow$ zram(약 31GB) $\rightarrow$ NVMe Swap(50GB)으로 이어지는 계층적 메모리 아키텍처 구축
Impact
- 가상 메모리 용량 50GB 추가 확보
- NVMe SSD 기반의 약 2000 MB/s 전송 속도 활용
- 34B~70B 파라미터 모델의 안정적인 배포 및 구동 환경 조성
Key Takeaway
고성능 저장 매체를 활용한 계층적 가상 메모리 설계는 물리적 RAM 한계를 극복하고 대규모 AI 모델을 엣지 디바이스에서 구동 가능하게 하는 실용적인 확장 전략임.
실천 포인트
LLM 추론 시 OOM 방지를 위해 NVMe 기반 Swap을 구축하고, swappiness를 10 이하로 설정하여 디스크 I/O 병목을 최소화할 것