피드로 돌아가기
Scaling to Infinity: 한계를 넘어서는 LY Corporation의 관측 가능성 플랫폼 진화기
LINE Engineering
Database

Scaling to Infinity: 한계를 넘어서는 LY Corporation의 관측 가능성 플랫폼 진화기

LY Corporation이 MySQL→OpenTSDB→자체 TSDB로 진화시키며 일간 수조 건 규모 지표를 무중단으로 처리

2026년 2월 4일12advanced

Context

SOA에서 MSA로 아키텍처 전환되면서 모니터링 대상이 기하급수적으로 증가했고, MySQL은 초당 쓰기 부하 감당 불가, 1분 미만 고해상도 수집 불가능 상태에 직면했습니다. OpenTSDB 도입 후에도 태그 개수 증가 시 UID 테이블 조회 성능 저하, 문자 제약(a-z, A-Z, 0-9, -, _, ., / 만 허용), 대용량 조회 시 필수적인 웜업(warm-up) 프로세스로 인한 운영 복잡도 증가 문제가 발생했습니다. 쿠버네티스 환경 전환 이후 파드의 높은 이탈률과 볼륨 동적 할당으로 저장소 리소스가 급격히 고갈되어 IMDB와 Cassandra 모두 확장 한계에 부딪혔습니다.

Technical Solution

  • 자체 시계열 데이터베이스 개발(2018년 시작, 2019년 완성): Meta의 Gorilla 논문에서 영감을 얻어 조회 패턴의 85%가 최근 26시간 내에 집중된다는 인사이트 적용
  • 다중 계층 저장소 전략 구현: 자주 접근되는 지표는 IMDB(in-memory database)로 처리해 지연 시간 최소화, 접근 빈도 낮은 데이터는 Apache Cassandra에 저장해 비용 최적화
  • 기존 API와의 완벽한 호환성 유지: 백엔드 아키텍처 근본적 변화에도 불구하고 사용자 마이그레이션 및 코드 수정 없이 심리스(seamless)한 성능 향상 제공
  • 직접 I/O 적용 시도 → B+ 트리 기반 캐시로 전환: 커널의 페이지 캐시를 효율적으로 활용하는 캐싱 전략으로 인프라 부하를 줄이면서 성능 확보
  • 데이터 중앙 집중화 및 AI 기술 통합 계획: 파편화된 시계열 데이터를 단일 솔루션으로 통합하고 AIOps, 예측 모델, MCP(model context protocol) 연동으로 LLM과 자연어 인터페이스 구축

Impact

  • 2019년 자체 TSDB 출시 이후 매년 전년 대비 2,000억 건 이상 일간 지표 수집량 증가
  • 현재 일간 수조(trillions) 건 규모 지표 처리

Key Takeaway

기술 혁신 과정에서 백엔드 아키텍처의 근본적 변화를 사용자에게 투명하게 제공하려면 기존 API 호환성 유지와 무중단 마이그레이션 전략이 필수이며, 실패 경험(직접 I/O)도 숨기지 않고 관련 부서와 협력하여 최적해를 찾는 소통이 중요합니다.


시계열 데이터를 대규모로 저장하는 서비스에서 데이터 접근 패턴 분석(최근 N시간 접근 집중도)을 기반으로 핫 데이터용 메모리 저장소와 콜드 데이터용 디스크 저장소를 분리하면, 조회 지연 시간을 최소화하면서 저장 비용을 최적화할 수 있습니다. 또한 대규모 마이그레이션 시 기존 API 호환성을 유지하면 사용자 코드 변경 없이 성능 향상의 이점을 제공할 수 있습니다.

원문 읽기