피드로 돌아가기
Dev.toAI/ML
원문 읽기
Raw HTML 스크래핑 대체 및 SERP API 기반의 정형 데이터 컨텍스트 파이프라인 설계
How to Get Google Search Results in JSON for an AI Agent
AI 요약
Context
AI Agent의 실시간 정보 획득을 위한 검색 레이어 필요성 대두. 기존의 직접적인 HTML 스크래핑 방식은 구글의 빈번한 레이아웃 변경, CAPTCHA 차단, 위치 기반 결과의 불일치로 인해 프로덕션 환경에서 유지보수 비용이 기하급수적으로 증가하는 한계 존재.
Technical Solution
- 비정형 HTML 파싱 단계를 제거하고 정형화된 JSON 응답을 제공하는 SERP API 기반 아키텍처로 전환
- User Task에서 검색 쿼리를 생성하고 SERP API를 통해 Position, Title, Link, Snippet 등의 정제된 필드만 추출하는 데이터 파이프라인 구축
- LLM의 Token 낭비를 방지하기 위해 API 전체 응답 중 필수 필드만 선별하여 텍스트 블록으로 재구성하는 Context Filtering 로직 구현
- 국가, 언어, 위치 파라미터를 API 요청 단계에서 제어하여 지리적 맥락이 반영된 정확한 검색 결과 확보
- 다양한 SERP API 제공자(SerpApi, SearchAPI, Bright Data, Talordata 등) 간의 응답 구조 안정성과 필드 일관성을 비교 검증하는 벤치마크 프로세스 적용
실천 포인트
1. 직접 스크래핑 대신 SERP API를 도입하여 인프라 유지보수 공수 절감 여부 검토
2. LLM 전달 전 Snippet 등 핵심 필드만 추출하는 전처리 함수 구현으로 컨텍스트 밀도 최적화
3. 서비스 타겟 지역에 따른 Geo-targeting 파라미터 설정 및 응답 정확도 테스트 수행
4. API 제공자 선정 시 무료 쿼리(예: Talordata 1,000회)를 활용한 응답 스키마 안정성 검증