Vision Model 제거 및 DOM 텍스트 분석 전환으로 테스트 비용 300배 절감

I Cut My AI Test Automation Cost by 300x by Ditching Vision Models

xulingfeng2026년 5월 20일4분intermediate

AI 요약

Context

Midscene.js와 Qwen-VL 기반의 Vision 모델을 활용한 웹 테스트 자동화 구조에서 단계당 $0.011의 높은 API 비용 발생. 픽셀 데이터 분석 방식이 DOM 트리 내의 구조화된 텍스트 정보라는 대체재를 간과하여 발생하는 자원 낭비 확인.

Technical Solution

Vision 기반 픽셀 분석을 배제하고 Playwright를 통한 DOM tree 기반의 Interactive Elements 텍스트 추출 방식으로 전환
추출된 구조화된 텍스트를 DeepSeek V4 LLM에 입력하여 다음 액션을 결정하는 Pure-text AI 프레임워크 설계
Android 환경 대응을 위해 uiautomator2로 Native UI Tree를 추출하고 정보 부족 시에만 ADB Screencap과 OCR을 사용하는 Hybrid 전략 채택
WebView 내 입력 무시 문제를 해결하기 위해 set_text() 대신 uiautomator2.send_keys()를 적용한 입력 메커니즘 최적화
Local OCR(EasyOCR) 활용을 통한 외부 API 의존성 제거 및 추가 비용 발생 차단

Impact

테스트 단계당 비용: $0.011(Qwen-VL) $\rightarrow$ $0.00004(DeepSeek V4)로 약 275배 절감
50단계 테스트 케이스 비용: $0.55 $\rightarrow$ $0.002 미만으로 감소
29단계 병원 관리 워크플로우 수행 결과: 총 81.8초 소요 및 비용 약 $0.001 달성

Key Takeaway

문제 해결을 위한 모델의 성능 향상보다 데이터 포맷의 최적화(Pixel $\rightarrow$ Structured Text)가 비용과 효율성 면에서 더 결정적인 아키텍처적 이득을 제공함.

실천 포인트

- LLM 기반 자동화 설계 시 Vision 모델이 반드시 필요한 시각적 회귀 테스트인지, DOM 정보로 대체 가능한 CRUD 작업인지 구분할 것 - 멀티모달 모델 도입 전 구조화된 텍스트(DOM, UI Tree) 추출 가능 여부를 최우선적으로 검토할 것 - 비용 최적화를 위해 API 기반 OCR 대신 Local OCR 도입 및 경량 LLM(Flash 모델 등) 활용 방안을 고려할 것

태그

#Cost Optimization #DOM #LLM #Playwright #Test Automation

원문 읽기