Claude의 2단계 Web Search/Fetch 구조 분석 및 100KB 제한 기반 요약 파이프라인

How Much of Your Blog Does AI Search Actually Grab? Breaking Down Claude's WebSearch and WebFetch

Ray2026년 6월 19일12분intermediate

AI 요약

Context

LLM의 Context Window 제한으로 인한 웹 페이지 전체 데이터 로드 시 메모리 오버플로 및 추론 성능 저하 발생. 이를 해결하기 위해 검색과 본문 추출 단계를 분리한 2단계 아키텍처 채택.

Technical Solution

WebSearch 단계에서 URL, Title, Page Age 등 메타데이터만 우선 추출하여 Context 소모 최소화
WebFetch 단계에서 선택된 URL에 한해 본문 데이터를 로드하는 On-demand 전략 적용
Claude Code의 경우 HTML을 Markdown으로 변환 후 상위 100KB 텍스트만 추출하는 전처리 로직 수행
추출된 100KB 데이터를 하위 모델인 Haiku 3.5가 1차 요약하여 메인 모델에 전달하는 Middleware Summary 계층 구축
인용구 생성 시 125~150자 수준의 엄격한 Character Limit을 적용하여 응답 밀도 최적화

실천 포인트

- AI 요약 모델의 효율적 파싱을 위한 H2, H3, List, Table 등 명확한 Markdown 구조 적용 - 문맥 없이도 의미가 통하는 독립적 문장 구조(Self-contained sentence) 작성을 통한 인용률 제고 - robots.txt 설정을 통한 AI Bot 라우팅 최적화 검토

태그

#WebFetch #Context Window #Markdown Parsing #Middleware Summary #Token Optimization

원문 읽기