피드로 돌아가기
Dev.toFrontend
원문 읽기
Log Scale 적용 및 Pearson Correlation 구현을 통한 국가별 통계 데이터 시각화 최적화
A Scatter-Plot Explorer for World Statistics — Log Scales and Hand-Rolled Pearson Correlation
AI 요약
Context
인구 및 GDP와 같이 수치 범위가 100배에서 250배까지 차이 나는 데이터셋의 특성으로 인해 Linear Scale 적용 시 데이터 포인트가 한곳으로 뭉치는 시각적 붕괴 현상 발생. 단순 시각화를 넘어 데이터 간의 상관관계를 정확하게 계산하고 표현해야 하는 기술적 요구사항 존재.
Technical Solution
- 데이터 특성에 따른 Log Scale 선택적 적용을 위해 Metric 정의서 내 log 플래그를 도입한 동적 정규화 로직 설계
- 데이터 분포의 기하평균을 중심으로 배치하기 위해 $\log_{10}$ 기반의 Normalize 함수 구현
- 외부 라이브러리 없이 Pearson Correlation Coefficient 수식을 직접 구현하여 실시간 축 변경에 따른 상관계수 계산
- Log Scale로 시각화된 데이터의 경우 Power-law 관계를 선형으로 변환하여 분석하기 위해 Log-transformed 값 기반의 상관계수 산출 로직 적용
- 분산이 0인 경우 NaN 발생을 방지하기 위해 null을 반환하는 예외 처리 구조 설계
- Log 연산의 전제 조건인 '양수 값 보장'을 위해 데이터 무결성 검증 테스트 케이스 구축
실천 포인트
1. 데이터 범위가 10배 이상 차이 날 경우 Log Scale 도입 검토
2. 시각화 스케일 변경 시 통계 계산 로직(Correlation 등)에도 동일한 변환 적용 여부 확인
3. Zero Variance 상황에서 NaN 발생 가능성을 고려한 명시적 null 처리 및 하위 뷰 전달 구조 설계
4. Log 연산 적용 전 데이터셋의 양수 값 보장 여부를 검증하는 무결성 테스트 단계 추가