피드로 돌아가기
Dev.toAI/ML
원문 읽기
SERP JSON 정제 레이어를 통한 Token 낭비 방지 및 RAG 컨텍스트 최적화
How to Clean Search Results Before Sending Them to an LLM
AI 요약
Context
SERP API의 Raw JSON 응답을 LLM 프롬프트에 직접 투입함에 따른 Token 낭비 및 노이즈 발생 문제 분석. 불필요한 메타데이터와 추적 파라미터가 포함된 데이터 구조로 인한 모델의 답변 품질 저하 및 Prompt Injection 위험성 식별.
Technical Solution
- SERP API Response와 LLM Prompt 사이에 전용 Cleaning Layer를 배치하는 파이프라인 설계
- BeautifulSoup 기반 HTML 태그 제거 및 정규표현식을 통한 불필요한 공백 제거로 텍스트 밀도 최적화
- URLParse 및 필터링 리스트를 활용한 UTM 등 Tracking Parameter 제거로 컨텍스트 순도 향상
- 도메인 기반 Deduplication 및 빈 결과물 필터링을 통한 중복 정보 제거 로직 구현
- Source-numbered Context 포맷팅을 적용하여 LLM의 Citation 정확도 및 추적 가능성 확보
- 태스크 성격에 따라 Organic, News, Local 등 블록별 전용 클리너를 선택적으로 적용하는 모듈형 구조 채택
실천 포인트
- SERP 응답 중 Title, URL, Snippet, Position 등 필수 필드만 추출하는 화이트리스트 방식 적용 - URL에서 utm_source, gclid 등 분석에 불필요한 추적 파라미터 제거 프로세스 검토 - LLM의 토큰 제한 및 비용 절감을 위해 Snippet 길이에 대한 Hard Limit 설정 - 출처 명시를 위해 각 검색 결과에 [1], [2] 형태의 고유 인덱스 부여