피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Direct 트래픽 94%의 함정, 데이터 품질과 성능의 상관관계 분석
94% of my traffic shows as direct. Here's what I found
AI 요약
Context
트래픽 소스의 94%가 Direct로 집계되는 데이터 왜곡 발생. 실제 유입 경로를 파악할 수 없는 Attribution 부재 상황. 데이터 파편화로 인한 성능 지표와 리텐션 간의 상관관계 분석 난항.
Technical Solution
- Referrer Header가 누락되는 Slack, Discord 등 Dark Social 유입 경로 식별
- 지리적 데이터(Geo Data)와 세션 데이터를 교차 분석하여 특정 클라우드 리전 기반 Bot 트래픽 분리
- 페이지 렌더링 속도와 코호트 리텐션(Cohort Retention) 데이터를 시계열로 매칭하여 성능 저하 구간 탐색
- 트래픽, 성능, 리텐션 지표를 단일 뷰에서 통합 관찰하는 Observability 전략 수립
- 단순 채널 리포트 의존도를 낮추고 데이터 품질 검증 단계를 도입하는 분석 프로세스 설계
Impact
- Direct 트래픽 비중 94% 기록
- 싱가포르 기반 Bot 트래픽으로 인해 전체 수치 약 12% 뻥튀기 발생
- 성능 저하 발생 시점의 1주 차 리텐션 2.2%로 급감 (정상 구간 26.3% 대비)
Key Takeaway
데이터 소스 간의 사일로를 제거하고 성능 지표와 비즈니스 메트릭을 통합 분석해야 잘못된 원인 분석으로 인한 리소스 낭비를 방지할 수 있음.
실천 포인트
Direct 트래픽 비중이 30%를 초과할 경우 데이터 품질 문제를 의심하고, Geo 데이터 기반의 Bot 필터링과 성능-리텐션 교차 분석을 수행할 것