SERP JSON 정제 레이어를 통한 Token 낭비 방지 및 RAG 컨텍스트 최적화

How to Clean Search Results Before Sending Them to an LLM

Cecilia Hill2026년 6월 29일19분intermediate

AI 요약

Context

SERP API의 Raw JSON 응답을 LLM 프롬프트에 직접 투입함에 따른 Token 낭비 및 노이즈 발생 문제 분석. 불필요한 메타데이터와 추적 파라미터가 포함된 데이터 구조로 인한 모델의 답변 품질 저하 및 Prompt Injection 위험성 식별.

Technical Solution

SERP API Response와 LLM Prompt 사이에 전용 Cleaning Layer를 배치하는 파이프라인 설계
BeautifulSoup 기반 HTML 태그 제거 및 정규표현식을 통한 불필요한 공백 제거로 텍스트 밀도 최적화
URLParse 및 필터링 리스트를 활용한 UTM 등 Tracking Parameter 제거로 컨텍스트 순도 향상
도메인 기반 Deduplication 및 빈 결과물 필터링을 통한 중복 정보 제거 로직 구현
Source-numbered Context 포맷팅을 적용하여 LLM의 Citation 정확도 및 추적 가능성 확보
태스크 성격에 따라 Organic, News, Local 등 블록별 전용 클리너를 선택적으로 적용하는 모듈형 구조 채택

실천 포인트

- SERP 응답 중 Title, URL, Snippet, Position 등 필수 필드만 추출하는 화이트리스트 방식 적용 - URL에서 utm_source, gclid 등 분석에 불필요한 추적 파라미터 제거 프로세스 검토 - LLM의 토큰 제한 및 비용 절감을 위해 Snippet 길이에 대한 Hard Limit 설정 - 출처 명시를 위해 각 검색 결과에 [1], [2] 형태의 고유 인덱스 부여

태그

#Data Normalization #RAG #LLM Prompt Engineering #Token Optimization #SERP API

원문 읽기