피드로 돌아가기![[여의도 43층 사람들] DevOps팀에게 무엇이든 물어보세요!](https://tsewlmecqtvqphyhezcm.supabase.co/storage/v1/object/public/thumbnails/62371d28-e980-4f76-b8aa-465272c00ce6.webp?)
뱅크샐러드 기술블로그DevOps
원문 읽기
[여의도 43층 사람들] DevOps팀에게 무엇이든 물어보세요!
뱅크샐러드 DevOps팀이 IaC(Infrastructure as Code) 방식으로 운영 자동화를 구현해 적은 인원으로 대규모 인프라 관리
AI 요약
Context
금융 서비스의 급속도 성장에 따라 DevOps팀은 뱅크샐러드의 모든 인프라를 만들고 운영해야 했다. 적은 팀 인원으로 대규모 인프라를 관리하면서도 개발자 생산성, 운영 효율성, 서비스 안정성을 동시에 확보해야 하는 과제가 있었다.
Technical Solution
- IaC(Infrastructure as Code) 도입: 코드를 통해 인프라를 버전 관리하고 변경 사항 추적 및 롤백 가능하도록 구성
- AWS 3개 가용영역 활용 및 서비스 3중화: 고가용성 확보
- Kubernetes 자체 구축(Kubernetes The Hard Way): Vault, Etcd, Kubernetes를 직접 구성해 모든 옵션 관리 및 클러스터 직접 제어 가능
- 모니터링 스택 구성: Prometheus + Grafana, TICK(Telegraf, InfluxDB, Chronograf, Kapacitor), AWS Opensearch + Kibana
- Jaeger와 Linkerd 도입: 서비스 트레이싱 및 서비스메쉬 구현
- Opsgenie를 통한 온콜 제도: 장애 발생 시 온콜 담당자의 1차 대응으로 팀의 자유도 확보
- 포스트모텀 프로세스: 장애 원인을 프로세스와 코드 리뷰 방식 수준에서 분석해 재발 방지
Key Takeaway
금융 서비스의 미션 크리티컬한 요구 사항에서 안정성을 확보하려면 IaC를 기반으로 인프라 변경을 코드 리뷰 프로세스에 포함시키고, 장애 대응 후 인프라 자체의 설계 결함을 찾는 포스트모텀 문화가 필수다.
실천 포인트
DevOps팀 규모가 제한된 조직에서 IaC와 자동화된 장애 알림 시스템(Opsgenie 같은 온콜 도구)을 함께 도입하면, 운영 업무 반복성을 줄이면서도 팀원의 생산성 있는 업무 집중 시간을 확보할 수 있다.