피드로 돌아가기
Incident Report: Service failure due to storage full
Dev.toDev.to
Infrastructure

Disk Full로 인한 Redis 장애 해결 및 Log Rotation 체계 구축

Incident Report: Service failure due to storage full

Jancer Lima2026년 4월 18일2beginner

Context

Redis AOF 활성화 상태에서 루트 파티션 용량 부족으로 인한 Write Failure 발생. PM2 로그 및 빌드 캐시 누적으로 24GB 중 99% 점유율에 도달하며 서비스 전체 중단 상황 초래.

Technical Solution

  • truncate -s 0 명령을 통한 File Handle 유지 기반의 로그 데이터 즉시 제거
  • redis-check-aof --fix를 통한 디스크 풀 상태에서 손상된 AOF Manifest 파일 복구
  • stop-writes-on-bgsave-error no 설정을 통한 Redis Read-Only 보호 모드 강제 해제
  • pm2-logrotate 도입을 통한 개별 로그 파일 10MB 캡핑 및 자동 순환 구조 설계
  • journalctl --vacuum-size=500M 적용으로 시스템 저널 로그의 최대 점유 공간 제한

Impact

  • 로그 파일 3.8GB 및 캐시 1.5GB 제거를 통한 디스크 가용 공간 확보
  • 시스템 저널 로그 최대 크기를 500MB로 제한하여 디스크 고갈 리스크 방지

Key Takeaway

인프라의 가용성은 고도화된 기능보다 Log Rotation 및 Disk Monitoring 같은 기본 운영 체계의 안정성에 의존함.


1. Redis AOF 사용 시 디스크 잔여 용량 모니터링 알람 설정 여부 확인

2. PM2 등 프로세스 매니저 사용 시 Log Rotation 플러그인 필수 적용

3. OS 수준의 Journald 저장 용량 제한(Storage=maxsize) 설정 검토

4. 빌드 아티팩트 및 패키지 매니저 캐시의 정기적 삭제 스케줄링 구성

원문 읽기