피드로 돌아가기
I analysed 20 years of my chats
Hacker NewsHacker News
AI/ML

20년치 멀티 플랫폼 채팅 데이터 정제 및 3D 시각화 파이프라인 구축

I analysed 20 years of my chats

2026년 5월 27일17intermediate

Context

분산된 소셜 플랫폼의 채팅 기록을 통한 개인적 관계 및 생애 패턴 분석 필요성 대두. 단순 텍스트 저장 방식인 Journaling의 한계로 인해 정형화된 데이터 기반의 Personal CRM 설계가 요구됨.

Technical Solution

  • Heterogeneous Data Parsing: 플랫폼별 상이한 JSON/HTML 포맷을 Tab-separated format으로 통일하여 데이터 정규화 수행
  • Noise Filtering Strategy: 단순 길이 제한이 아닌 5개 오프셋 샘플링 및 빈도 기반 토큰 분석을 통한 고정밀 Denylist 구축
  • Entity Resolution: 닉네임, 애칭 등 다양한 Identifier를 동일 인물로 매핑하는 Cross-platform User Mapping 로직 구현
  • Performance Optimization: Galaxy-collision simulation 알고리즘을 적용하여 3D 렌더링 연산량을 Tick당 26M에서 50K로 최적화
  • Data Pipeline Construction: 파싱, 노이즈 제거, 개체 식별, 분류, 시각화로 이어지는 10단계 파이프라인 설계

1. 서로 다른 데이터 소스 통합 시 공통 포맷(Intermediate Format) 정의 여부 확인

2. 텍스트 정제 시 단순 길이 필터링 대신 도메인 특화 빈도 분석 적용

3. 대규모 그래프 렌더링 시 연산 복잡도를 낮추는 근사 알고리즘 검토

4. 사용자 식별자 통합을 위한 Entity Resolution 전략 수립

원문 읽기