피드로 돌아가기
Dev.toInfrastructure
원문 읽기
PCIe ASPM 비활성화를 통한 NVIDIA GPU BadTLP 프리징 해결
Fixing NVIDIA BadTLP PCIe Freezes on Linux - or an ASUS TUF gaming laptop odyssey
AI 요약
Context
ASUS TUF 노트북의 AMD 플랫폼과 NVIDIA GPU 간 PCIe ASPM 핸드쉐이크 실패로 인한 시스템 불안정 발생. 초당 수십 회 발생하는 BadTLP(Transaction Layer Packet) 에러가 커널 로그를 점유하며 GNOME 크래시 및 커널 패닉 유발.
Technical Solution
- pcie_aspm=off 설정을 통한 PCIe 전원 상태 협상 프로세스의 글로벌 비활성화
- 저전력 상태 진입 과정에서 발생하는 데이터 링크 레이어의 통신 오류 차단
- nvidia.NVreg_PreserveVideoMemoryAllocations=1 적용으로 GPU 메모리 할당 상태 유지
- 전원 상태 전환 시 GPU 리소스 해제 응답 대기 상태로 인한 시스템 행잉 문제 해결
- 커널 파라미터 수정을 통한 하드웨어-펌웨어 간의 불완전한 전원 관리 메커니즘 우회
실천 포인트
- PCIe Bus Error 및 BadTLP 발생 시 ASPM 설정 검토 - NVIDIA GPU 사용 환경의 전원 종료/재부팅 행잉 발생 시 VideoMemoryAllocations 옵션 확인 - 하드웨어 펌웨어 업데이트로 해결되지 않는 PCIe 통신 오류는 커널 레벨의 전원 관리 옵션 조정 고려