피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Disk Full로 인한 Redis 장애 해결 및 Log Rotation 체계 구축
Incident Report: Service failure due to storage full
AI 요약
Context
Redis AOF 활성화 상태에서 루트 파티션 용량 부족으로 인한 Write Failure 발생. PM2 로그 및 빌드 캐시 누적으로 24GB 중 99% 점유율에 도달하며 서비스 전체 중단 상황 초래.
Technical Solution
truncate -s 0명령을 통한 File Handle 유지 기반의 로그 데이터 즉시 제거redis-check-aof --fix를 통한 디스크 풀 상태에서 손상된 AOF Manifest 파일 복구stop-writes-on-bgsave-error no설정을 통한 Redis Read-Only 보호 모드 강제 해제pm2-logrotate도입을 통한 개별 로그 파일 10MB 캡핑 및 자동 순환 구조 설계journalctl --vacuum-size=500M적용으로 시스템 저널 로그의 최대 점유 공간 제한
Impact
- 로그 파일 3.8GB 및 캐시 1.5GB 제거를 통한 디스크 가용 공간 확보
- 시스템 저널 로그 최대 크기를 500MB로 제한하여 디스크 고갈 리스크 방지
Key Takeaway
인프라의 가용성은 고도화된 기능보다 Log Rotation 및 Disk Monitoring 같은 기본 운영 체계의 안정성에 의존함.
실천 포인트
1. Redis AOF 사용 시 디스크 잔여 용량 모니터링 알람 설정 여부 확인
2. PM2 등 프로세스 매니저 사용 시 Log Rotation 플러그인 필수 적용
3. OS 수준의 Journald 저장 용량 제한(Storage=maxsize) 설정 검토
4. 빌드 아티팩트 및 패키지 매니저 캐시의 정기적 삭제 스케줄링 구성