피드로 돌아가기
Kubernetes BlogKubernetes Blog
Infrastructure

Kubernetes 커뮤니티가 Checkpoint/Restore Working Group을 신설해 CRIU 생태계와 통합하는 checkpoint/restore 기능을 Kubernetes에 통합

Announcing the Checkpoint/Restore Working Group

2026년 1월 21일5intermediate

Context

Kubernetes에서 Jupyter 노트북, AI 챗봇 같은 대화형 워크로드의 리소스 활용도를 최적화할 필요가 있었다. Java 애플리케이션과 LLM 추론 서비스처럼 긴 초기화 시간을 가진 애플리케이션의 시작 가속화가 필요했다. 분산 모델 학습 같은 장기 실행 워크로드의 장애 허용성과 노드 간 Pod 마이그레이션, 보안 사건 분석을 위한 체계적인 접근 방식이 부족했다.

Technical Solution

  • Kubernetes에 CRIU(Checkpoint/Restore in Userspace) 기술을 통합: 실행 중인 애플리케이션과 컨테이너의 런타임 상태를 checkpoint/restore로 보존
  • checkpointctl 도구 도입: 컨테이너 checkpoint에 대한 심화 분석 지원
  • criu-coordinator 도구 활용: CRIU를 사용한 분산 애플리케이션의 조정된 checkpoint/restore 관리
  • checkpoint-restore-operator 배포: Kubernetes operator로 checkpoint 관리 자동화
  • 투명한 checkpoint/restore를 통한 선점 인식 스케줄링: 낮은 우선순위 Pod의 런타임 상태를 보존하면서 선점 가능하게 구현

Key Takeaway

Kubernetes의 checkpoint/restore 기능 표준화는 대화형 워크로드의 리소스 효율성, 애플리케이션 시작 시간, 분산 시스템 장애 허용성, 워크로드 마이그레이션 유연성을 동시에 해결할 수 있는 통합 설계 원칙을 제시한다.


Kubernetes를 사용하는 인프라 팀에서 CRIU 기반 checkpoint/restore를 도입하면, 장기 초기화 시간이 필요한 Java 애플리케이션이나 LLM 추론 서비스의 Pod 재시작 시간을 단축하고, 분산 모델 학습 같은 장기 실행 워크로드의 중단점에서 상태를 저장해 장애 발생 시 복구 시간을 최소화할 수 있다.

원문 읽기