GPT-4o Vision 기반 Browser-use 도입으로 UI 종속성 제거 및 의료 자동화 구현

Automate Your Healthcare: Building an AI Agent to Book Doctor Appointments and Archive Lab Reports

Beck_Moulton2026년 6월 15일5분intermediate

AI 요약

Context

DOM Selector 기반의 기존 Web Scraping 방식은 UI 변경 시 스크립트가 파손되는 취약한 구조를 가짐. 특히 복잡한 메뉴 구조와 레거시 시스템이 혼재된 의료 포털의 특성상 유지보수 비용이 기하급수적으로 증가하는 한계 존재.

Technical Solution

GPT-4o의 Vision 능력과 Browser-use 라이브러리를 결합하여 시각적 요소 중심의 UI 내비게이션 구현
LLM이 브라우저 상태(Screenshot 및 DOM Tree)를 인지하고 다음 Action을 결정하는 Feedback Loop 설계
Playwright를 Browser Instance로 활용하여 Click, Type, Scroll 등 실제 사용자 인터랙션 시뮬레이션
BrowserContextConfig를 통한 다운로드 경로 최적화로 PDF 결과물을 RAG 파이프라인의 데이터 소스로 직접 연결
Headless 모드 및 Security 옵션 조정을 통한 기업용 포털의 보안 제약 사항 대응

실천 포인트

- DOM 기반 Selector 대신 Vision-based Agent 도입을 통한 UI 변경 대응력 검토 - AI Agent의 최종 제출 전 단계에 Human-in-the-loop 확인 절차 설계 - 비정형 PDF 데이터의 정형화를 위한 Vector Database 및 RAG 파이프라인 연동 고려 - FastAPI 기반의 Wrapper 구축을 통한 Agent 워크플로우의 API 서비스화

태그

#RAG #Autonomous Agents #GPT-4o #LLM-driven Web Navigation #Playwright

원문 읽기