피드로 돌아가기
I Cut My AI Test Automation Cost by 300x by Ditching Vision Models
Dev.toDev.to
AI/ML

Vision Model 제거 및 DOM 텍스트 분석 전환으로 테스트 비용 300배 절감

I Cut My AI Test Automation Cost by 300x by Ditching Vision Models

xulingfeng2026년 5월 20일4intermediate

Context

Midscene.js와 Qwen-VL 기반의 Vision 모델을 활용한 웹 테스트 자동화 구조에서 단계당 $0.011의 높은 API 비용 발생. 픽셀 데이터 분석 방식이 DOM 트리 내의 구조화된 텍스트 정보라는 대체재를 간과하여 발생하는 자원 낭비 확인.

Technical Solution

  • Vision 기반 픽셀 분석을 배제하고 Playwright를 통한 DOM tree 기반의 Interactive Elements 텍스트 추출 방식으로 전환
  • 추출된 구조화된 텍스트를 DeepSeek V4 LLM에 입력하여 다음 액션을 결정하는 Pure-text AI 프레임워크 설계
  • Android 환경 대응을 위해 uiautomator2로 Native UI Tree를 추출하고 정보 부족 시에만 ADB Screencap과 OCR을 사용하는 Hybrid 전략 채택
  • WebView 내 입력 무시 문제를 해결하기 위해 set_text() 대신 uiautomator2.send_keys()를 적용한 입력 메커니즘 최적화
  • Local OCR(EasyOCR) 활용을 통한 외부 API 의존성 제거 및 추가 비용 발생 차단

Impact

  • 테스트 단계당 비용: $0.011(Qwen-VL) $\rightarrow$ $0.00004(DeepSeek V4)로 약 275배 절감
  • 50단계 테스트 케이스 비용: $0.55 $\rightarrow$ $0.002 미만으로 감소
  • 29단계 병원 관리 워크플로우 수행 결과: 총 81.8초 소요 및 비용 약 $0.001 달성

Key Takeaway

문제 해결을 위한 모델의 성능 향상보다 데이터 포맷의 최적화(Pixel $\rightarrow$ Structured Text)가 비용과 효율성 면에서 더 결정적인 아키텍처적 이득을 제공함.


- LLM 기반 자동화 설계 시 Vision 모델이 반드시 필요한 시각적 회귀 테스트인지, DOM 정보로 대체 가능한 CRUD 작업인지 구분할 것 - 멀티모달 모델 도입 전 구조화된 텍스트(DOM, UI Tree) 추출 가능 여부를 최우선적으로 검토할 것 - 비용 최적화를 위해 API 기반 OCR 대신 Local OCR 도입 및 경량 LLM(Flash 모델 등) 활용 방안을 고려할 것

원문 읽기