피드로 돌아가기
Dev.toAI/ML
원문 읽기
GPT-4o Vision 기반 Browser-use 도입으로 UI 종속성 제거 및 의료 자동화 구현
Automate Your Healthcare: Building an AI Agent to Book Doctor Appointments and Archive Lab Reports
AI 요약
Context
DOM Selector 기반의 기존 Web Scraping 방식은 UI 변경 시 스크립트가 파손되는 취약한 구조를 가짐. 특히 복잡한 메뉴 구조와 레거시 시스템이 혼재된 의료 포털의 특성상 유지보수 비용이 기하급수적으로 증가하는 한계 존재.
Technical Solution
- GPT-4o의 Vision 능력과 Browser-use 라이브러리를 결합하여 시각적 요소 중심의 UI 내비게이션 구현
- LLM이 브라우저 상태(Screenshot 및 DOM Tree)를 인지하고 다음 Action을 결정하는 Feedback Loop 설계
- Playwright를 Browser Instance로 활용하여 Click, Type, Scroll 등 실제 사용자 인터랙션 시뮬레이션
- BrowserContextConfig를 통한 다운로드 경로 최적화로 PDF 결과물을 RAG 파이프라인의 데이터 소스로 직접 연결
- Headless 모드 및 Security 옵션 조정을 통한 기업용 포털의 보안 제약 사항 대응
실천 포인트
- DOM 기반 Selector 대신 Vision-based Agent 도입을 통한 UI 변경 대응력 검토 - AI Agent의 최종 제출 전 단계에 Human-in-the-loop 확인 절차 설계 - 비정형 PDF 데이터의 정형화를 위한 Vector Database 및 RAG 파이프라인 연동 고려 - FastAPI 기반의 Wrapper 구축을 통한 Agent 워크플로우의 API 서비스화