피드로 돌아가기
Hacker NewsHacker News
AI/ML

DOM 의존성 제거를 위한 Computer Vision 기반 UI 자동화 설계

How to automate Instagram engagements with computer vision (and get banned)

2026년 6월 12일6intermediate

Context

Instagram의 동적 HTML 클래스 생성 및 깊은 DOM 계층 구조로 인한 Selector 기반 자동화의 잦은 붕괴 발생. 렌더링 결과물인 픽셀 데이터만을 이용해 UI 요소의 좌표를 추출하는 비침습적 접근 방식 필요.

Technical Solution

  • Template Matching을 통한 화면 내 고정 랜드마크(Triple-dots, Action bar) 탐색 및 기준점 설정
  • 랜드마크 간 기하학적 관계를 이용한 60-pixel 너비의 수직 Crop Region 계산으로 검색 공간 최적화
  • 최적화된 영역 내 Sliding Window 기법을 적용하여 다양한 스케일의 하트 아이콘 매칭 점수 산출
  • 검출된 좌표들의 X축 최빈값(Mode)을 계산하여 일직선상에 위치하지 않는 False Positive 제거
  • Bezier Curve 및 Randomized Timing을 적용한 커서 제어로 봇 탐지 시스템 우회 시도

- DOM Selector 기반 자동화가 어려운 환경에서 픽셀 기반 Template Matching 검토 - 전면 탐색 대신 랜드마크 기반의 ROI(Region of Interest) 설정을 통한 연산 비용 및 노이즈 감소 - 데이터의 통계적 특성(X축 정렬)을 활용한 Outlier 필터링 로직 구현

원문 읽기