피드로 돌아가기
100여개의 대출 기관 API, 자동으로 운영하기
뱅크샐러드 기술블로그뱅크샐러드 기술블로그
Backend

100여개의 대출 기관 API, 자동으로 운영하기

뱅크샐러드가 100여개 금융사 API에 Observability와 모니터링 시스템을 도입해 API 성공률을 90%에서 99%로 개선

2024년 12월 26일7intermediate

Context

대출비교 서비스에서 100여개 금융사 API를 연동할 때 장애가 발생하면 사용자가 대출 기회를 놓칠 수 있다. 개발자가 수동으로 모니터링해야 하고 금융사의 네트워크 변경 후 실제 운영 상황을 파악하기 어려웠다. 문제를 사후 대응으로만 처리하고 있었으므로 금융사로부터 먼저 오류 안내를 받는 수동적 상황이었다.

Technical Solution

  • Metric을 활용한 관찰 가능성 확보: count metric으로 금융사 API 호출 시마다 성공/실패 횟수를 기록하고 Datadog을 통해 시각화
  • 대시보드 구축: 금융사별 API 성공 비율을 한눈에 볼 수 있는 대시보드 제작
  • 자동 알림 시스템: API 성공률이 특정 수준 이하로 떨어지면 Slack 알림 발송
  • 이상 징후 감지 로직 개선: 금융사 서버 점검으로 인한 정상적인 데이터 부재도 정상으로 분류
  • 알림 상세 정보 포함: Slack 알림에 해당 금융사 API 로그와 성공률 대시보드 링크 자동 첨부

Impact

  • API 성공률을 5개월 동안 90%에서 99%로 개선
  • 개발자가 수동 감시를 통해 놓친 오류를 선제적으로 감지

Key Takeaway

복수의 외부 API를 운영하는 시스템에서는 Metric 기반 Observability와 임계값 기반 자동 알림을 조합하면 사후 대응에서 선제적 대응으로 전환할 수 있다.


금융사 API 연동처럼 외부 제휴사 서비스가 많은 환경에서는 Datadog 같은 모니터링 도구로 호출 성공률 metric을 집계하고, 임계값 기반 알림(threshold-based alerting)을 설정한 후 Slack 등으로 로그와 대시보드 링크를 함께 발송하면 개발자의 능동적 대응을 가능하게 하고 전체 서비스 안정성을 크게 높일 수 있다.

원문 읽기
100여개의 대출 기관 API, 자동으로 운영하기 | Devpick