피드로 돌아가기
Dev.toFrontend
원문 읽기
Wayback Machine 아카이브의 MP4 시각화 파이프라인 구축
wayback-video: Turn Any Site's History into a Video
AI 요약
Context
Wayback Machine의 개별 스냅샷 확인 방식이 지닌 낮은 가시성과 사이트 진화 과정 파악의 어려움 분석. 단순 렌더링 시 Service Worker 간섭으로 인한 SPA 페이지 깨짐 현상과 중복 데이터로 인한 비효율적 영상 길이 발생 문제 식별.
Technical Solution
- CDX API 기반 HTML 캡처 데이터 수집 및 서버 사이드 타임스탬프 기반 데이터 압축 설계
- Playwright의 if_ replay 모드 적용을 통한 툴바 제거 및 아카이브 전용 에셋 로드 최적화
- Service Worker 사전 차단 및 고정 대기 시간(2.5s) 설정을 통한 SPA 렌더링 안정성 확보
- 200자 미만 텍스트 검사를 통한 유효하지 않은 스냅샷(404, Spinner) 필터링 로직 구현
- SHA-256 해시 기반의 Exact Dedup과 aHash Hamming Distance 기반의 시각적 중복 제거 프로세스 도입
- ffmpeg를 활용한 Full-page height 스크린샷의 Pan 애니메이션 및 MP4 인코딩 파이프라인 구축
실천 포인트
- 외부 아카이브 렌더링 시 Service Worker가 라이브 오리진으로 요청을 가로채는지 확인 - 네트워크 Idle 이벤트가 불안정한 프록시 환경에서 고정 Wait Time의 실용적 대안 검토 - 시각적 데이터의 중복 제거를 위해 단순 해시 외에 aHash와 같은 Perceptual Hashing 적용 고려 - Full-page 렌더링 시 콘텐츠 길이에 따른 가변 스크롤 속도 계산 로직 적용