Scrapy 기반 HTML Comment 추출을 통한 Web Layer 자산 가시화 도구

ReconSpider: HTB Web Enumeration Tool Guide (2026)

Hrushikesh Shinde2026년 4월 20일12분beginner

AI 요약

Context

기존 Recon 도구들이 Port Scanning 및 Directory Brute-forcing 위주의 네트워크/경로 분석에 집중함에 따른 한계 발생. 애플리케이션이 HTML 소스 내에 직접 노출하는 콘텐츠 레이어의 데이터 수집 공백을 해결할 필요성 대두.

Technical Solution

Scrapy 프레임워크를 활용한 효율적인 타겟 도메인 Crawling 엔진 구현
HTML Comment 내 숨겨진 Credential 및 Developer Note 추출을 위한 전용 파싱 로직 적용
이메일, JS 파일, PDF, 이미지 등 분산된 Web Asset을 통합 수집하는 정적 분석 구조 설계
수집된 비정형 데이터를 result.json 형태의 구조화된 데이터로 변환하는 데이터 모델링 적용
Python 3.7+ 환경에서 의존성을 최소화하여 배포 및 실행 속도를 최적화한 경량 아키텍처 구성

실천 포인트

- Recon 단계에서 Nmap/Gobuster 실행 전 Web Content 레이어 우선 분석 수행 - result.json 내 HTML Comments 배열을 최우선 순위로 Triage 하여 숨겨진 힌트 및 자격 증명 확인 - 추출된 JS Endpoint 및 외부 링크 리스트를 Burp Suite 등의 프록시 도구에 입력값으로 연동

태그

#Web Enumeration #HTML Parsing #Asset Extraction #Reconnaissance #Scrapy

원문 읽기