피드로 돌아가기
Dev.toSecurity
원문 읽기
Scrapy 기반 HTML Comment 추출을 통한 Web Layer 자산 가시화 도구
ReconSpider: HTB Web Enumeration Tool Guide (2026)
AI 요약
Context
기존 Recon 도구들이 Port Scanning 및 Directory Brute-forcing 위주의 네트워크/경로 분석에 집중함에 따른 한계 발생. 애플리케이션이 HTML 소스 내에 직접 노출하는 콘텐츠 레이어의 데이터 수집 공백을 해결할 필요성 대두.
Technical Solution
- Scrapy 프레임워크를 활용한 효율적인 타겟 도메인 Crawling 엔진 구현
- HTML Comment 내 숨겨진 Credential 및 Developer Note 추출을 위한 전용 파싱 로직 적용
- 이메일, JS 파일, PDF, 이미지 등 분산된 Web Asset을 통합 수집하는 정적 분석 구조 설계
- 수집된 비정형 데이터를 result.json 형태의 구조화된 데이터로 변환하는 데이터 모델링 적용
- Python 3.7+ 환경에서 의존성을 최소화하여 배포 및 실행 속도를 최적화한 경량 아키텍처 구성
실천 포인트
- Recon 단계에서 Nmap/Gobuster 실행 전 Web Content 레이어 우선 분석 수행 - result.json 내 HTML Comments 배열을 최우선 순위로 Triage 하여 숨겨진 힌트 및 자격 증명 확인 - 추출된 JS Endpoint 및 외부 링크 리스트를 Burp Suite 등의 프록시 도구에 입력값으로 연동