피드로 돌아가기
How Hugging Face Scaled Secrets Management for AI Infrastructure
Hugging Face BlogHugging Face Blog
DevOps

Hugging Face가 HashiCorp Vault 대신 Infisical을 도입하여 멀티클라우드 환경에서 secrets 관리를 중앙화하고 Kubernetes Operator를 통해 자동 동기화 구현

How Hugging Face Scaled Secrets Management for AI Infrastructure

2025년 3월 31일9intermediate

Context

Hugging Face의 인프라가 AWS 단일 클라우드에서 Azure, GCP를 포함한 멀티클라우드 환경으로 확장되면서 secrets 관리의 일관성이 깨져 secret sprawl 위험이 증가했다. 레거시 시스템과 수동 secrets 로테이션으로 인해 credentials 유출 보안 사고가 발생했고, 팀 규모 증가에 따른 역할 기반 접근 제어(RBAC) 및 SSO(Okta) 통합이 필수적이 되었다.

Technical Solution

  • Infisical을 중앙화된 secrets 관리 플랫폼으로 도입: HashiCorp Vault 대신 선택하여 멀티클라우드 지원과 개발자 친화적 워크플로우 확보
  • Infisical Kubernetes Operator를 활용한 자동 동기화: Infisical에서 secrets 변경 감지 시 대응하는 Kubernetes 객체(InfisicalSecret CRD)를 자동으로 업데이트
  • 프로젝트 구조 재정렬: 기존 인프라와 애플리케이션 도메인을 분리하여 관심사의 명확한 분리와 표준화된 secrets 로테이션 구현
  • Terraform 기반 마이그레이션: 기존 AWS 설정에서 Kubernetes secrets 생성하던 Terraform 워크플로우를 Infisical Kubernetes Operator로 전환
  • Okta 통합을 통한 세밀한 RBAC: 조직의 Okta 그룹에서 권한을 자동 매핑하여 프로젝트별 개발자 역할 제어(읽기/쓰기/관리 권한 세분화)
  • CLI 및 웹 UI를 활용한 로컬 개발 지원: 불안전한 .env 파일 제거하고 Infisical CLI로 secrets를 직접 개발 환경에 주입
  • GitHub Actions 및 OIDC를 통한 CI/CD 통합: 자체 호스팅 runner에서 배포 파이프라인 내 secrets 관리를 production 수준으로 강화
  • 수동 재배포 정책: 자동 컨테이너 재시작 기능을 지원하지만 트래픽(분당 1000만 요청 이상) 및 다중 replica 환경에서 배포 제어를 위해 수동 재배포 선택

Impact

아티클에 정량적 수치가 명시되지 않음.

Key Takeaway

Multi-cloud 환경에서 secrets 관리의 복잡성을 해결하려면 중앙화된 플랫폼과 인프라 전반(Kubernetes, CI/CD, 로컬 개발)에 걸친 일관된 통합이 필수다. 특히 secrets 동기화 자동화 기능이 있더라도 고트래픽·다중 replica 환경에서는 배포 정책에 맞춘 수동 제어 선택이 안정성과 예측 가능성을 확보하는 중요한 설계 결정이다.


멀티클라우드·다중 Kubernetes 클러스터 환경의 개발팀에서 Infisical과 같은 중앙화된 secrets 관리 솔루션과 Kubernetes Operator를 도입하면 로컬 개발부터 CI/CD, 프로덕션 배포까지 일관된 워크플로우로 secrets 접근을 표준화할 수 있으며, 조직 계층과 SSO를 연계한 세밀한 권한 제어로 보안 사고 후 자동화된 secrets 로테이션을 신속하게 실행할 수 있다.

원문 읽기