피드로 돌아가기
GeekNewsInfrastructure
원문 읽기
Project Gutenberg - 계속 더 좋아지고 있음
TCP/TLS 지연을 활용한 Bot 필터링 및 EPUB3 표준 기반 전자책 아키텍처
AI 요약
Context
1971년 시작된 방대한 Plain Text 라이브러리의 레거시를 현대적 웹 표준으로 전환하는 과정 분석. 단순 텍스트 제공을 넘어 다양한 디바이스 호환성을 위한 포맷 최적화와 무분별한 Bot 트래픽 제어라는 과제 직면.
Technical Solution
- TCP 핸드셰이크(4.5s)와 TLS 핸드셰이크(9.2s)에 의도적 지연을 설정하여 Bot의 Connection Timeout을 유도하는 네트워크 레벨의 캡차 메커니즘 적용
- 데이터 견고성 확보를 위해 Plain Text 버전을 유지하며, 최신 리플로우(Reflow) 대응을 위한 EPUB3 표준 포맷 동시 지원
- 브라우저 내장 기능을 활용한 HTML 버전 제공으로 별도 로그인 없이 기기간 상태 유지 및 TTS/배경색 제어 기능 구현
- 대규모 말뭉치 배포를 위해 전체 영어 데이터를 약 60GB 규모의 ZIM(OpenZIM) 압축 포맷으로 패키징하여 효율적 전송 구조 설계
- Standard Ebooks의 Git 저장소 모델을 참고하여 전자텍스트의 수정 이력 관리 및 버전 추적 가능성 검토
실천 포인트
1. Bot 트래픽 급증 시 애플리케이션 레이어 이전의 네트워크 핸드셰이크 지연 시간 조정을 통한 필터링 가능성 검토
2. 다양한 뷰어 환경 대응을 위해 Reflow가 가능한 표준 포맷(EPUB3)과 원천 데이터(Plain Text)의 이중화 관리
3. 대용량 정적 데이터 배포 시 ZIM과 같은 압축 아카이브 포맷 도입을 통한 전송 효율 최적화