피드로 돌아가기
ReconSpider: HTB Web Enumeration Tool Guide (2026)
Dev.toDev.to
Security

Scrapy 기반 HTML Comment 추출을 통한 Web Layer 자산 가시화 도구

ReconSpider: HTB Web Enumeration Tool Guide (2026)

Hrushikesh Shinde2026년 4월 20일12beginner

Context

기존 Recon 도구들이 Port Scanning 및 Directory Brute-forcing 위주의 네트워크/경로 분석에 집중함에 따른 한계 발생. 애플리케이션이 HTML 소스 내에 직접 노출하는 콘텐츠 레이어의 데이터 수집 공백을 해결할 필요성 대두.

Technical Solution

  • Scrapy 프레임워크를 활용한 효율적인 타겟 도메인 Crawling 엔진 구현
  • HTML Comment 내 숨겨진 Credential 및 Developer Note 추출을 위한 전용 파싱 로직 적용
  • 이메일, JS 파일, PDF, 이미지 등 분산된 Web Asset을 통합 수집하는 정적 분석 구조 설계
  • 수집된 비정형 데이터를 result.json 형태의 구조화된 데이터로 변환하는 데이터 모델링 적용
  • Python 3.7+ 환경에서 의존성을 최소화하여 배포 및 실행 속도를 최적화한 경량 아키텍처 구성

- Recon 단계에서 Nmap/Gobuster 실행 전 Web Content 레이어 우선 분석 수행 - result.json 내 HTML Comments 배열을 최우선 순위로 Triage 하여 숨겨진 힌트 및 자격 증명 확인 - 추출된 JS Endpoint 및 외부 링크 리스트를 Burp Suite 등의 프록시 도구에 입력값으로 연동

원문 읽기