피드로 돌아가기
How to Automate the ChatGPT & Gemini Web UIs Without an API Key
Dev.toDev.to
AI/ML

API 비용 없이 Web UI 자동화를 통한 LLM 워크플로우 구현

How to Automate the ChatGPT & Gemini Web UIs Without an API Key

Usama2026년 6월 30일12intermediate

Context

공식 API의 Token 기반 과금 체계와 결제 수단 설정으로 인한 비용 부담 및 진입 장벽 존재. 프로덕션 수준의 신뢰성이 필요 없는 취미 프로젝트나 연구 목적에서는 무료 Web UI를 자동화하여 비용을 제거하려는 요구 발생.

Technical Solution

  • undetected-chromedriver를 활용해 봇 감지를 우회하고 브라우저 세션을 제어하는 구조 설계
  • contenteditable div 및 rich-textarea의 특성을 고려하여 Shift+Enter 처리 및 JS 기반 특수 문자 삽입 로직 구현
  • OS 파일 선택 창 호출을 차단하기 위해 HTMLInputElement.prototype.click 메서드를 Monkey-patching 하여 hidden input에 직접 경로 주입
  • 이벤트 콜백 부재 문제를 해결하기 위해 Stop Button의 DOM 존재 여부를 실시간 Polling 하여 생성 완료 시점 판별
  • User Profile 유지를 통한 지속적인 Login 상태 확보로 인증 절차 자동화 및 단순화

1. Web UI 자동화 시 단순 send_keys 대신 JS 주입을 통한 데이터 입력 검토

2. OS 레벨 팝업 발생 시 Prototype 메서드 오버라이딩을 통한 제어 가능 여부 확인

3. 비동기 응답 완료 시점 파악을 위해 UI 상태 기반의 Polling 전략 수립

4. UI 변경에 따른 취약성(Brittleness)을 고려하여 프로덕션 환경 적용 여부 신중히 결정

원문 읽기