피드로 돌아가기
Show GN: ArachneControl – 서버가 브라우저를 원격 제어해 수집하는 오픈소스 데이터 수집 시스템
GeekNewsGeekNews
Backend

Show GN: ArachneControl – 서버가 브라우저를 원격 제어해 수집하는 오픈소스 데이터 수집 시스템

Command-Execute-Report 패턴 기반의 서버 제어형 브라우저 데이터 수집 시스템

kingtw2026년 6월 28일2intermediate

Context

기존 크롤러의 타겟 백엔드 부하 및 차단 문제와 로그인 벽 진입의 어려움 분석. 수집 로직 변경 시마다 발생하는 클라이언트 재배포의 비효율성을 해결해야 하는 상황.

Technical Solution

  • Zero-Footprint 설계를 통한 로그인 세션 공유 및 타겟 서버 부하 최소화
  • Command-Execute-Report 패턴을 적용한 서버 기반 런타임 동적 제어 구조
  • Pydantic 기반 TS 타입 자동 생성으로 단일 소스 기반의 타입 안정성 확보
  • WebUI 내 셀렉터 자동 생성 및 액션 시퀀스 저장 방식의 레시피 엔진 구현
  • Write-ahead 커밋과 Idempotency 보장을 통한 무손실 데이터 적재 프로세스 구축
  • Cloudflared 터널링을 활용한 Private Network Access 제약 우회 전략 적용

- 브라우저 런타임 제어가 필요한 경우 script eval 대신 화이트리스트 기반 커맨드 체계 검토 - 클라이언트 재배포 비용 절감을 위한 서버 주도형 동적 로직 발행 구조 설계 - 데이터 유실 방지를 위한 Write-ahead 로그 및 멱등성 확보 로직 적용

원문 읽기