피드로 돌아가기
Dev.toAI/ML
원문 읽기
Claude의 2단계 Web Search/Fetch 구조 분석 및 100KB 제한 기반 요약 파이프라인
How Much of Your Blog Does AI Search Actually Grab? Breaking Down Claude's WebSearch and WebFetch
AI 요약
Context
LLM의 Context Window 제한으로 인한 웹 페이지 전체 데이터 로드 시 메모리 오버플로 및 추론 성능 저하 발생. 이를 해결하기 위해 검색과 본문 추출 단계를 분리한 2단계 아키텍처 채택.
Technical Solution
- WebSearch 단계에서 URL, Title, Page Age 등 메타데이터만 우선 추출하여 Context 소모 최소화
- WebFetch 단계에서 선택된 URL에 한해 본문 데이터를 로드하는 On-demand 전략 적용
- Claude Code의 경우 HTML을 Markdown으로 변환 후 상위 100KB 텍스트만 추출하는 전처리 로직 수행
- 추출된 100KB 데이터를 하위 모델인 Haiku 3.5가 1차 요약하여 메인 모델에 전달하는 Middleware Summary 계층 구축
- 인용구 생성 시 125~150자 수준의 엄격한 Character Limit을 적용하여 응답 밀도 최적화
실천 포인트
- AI 요약 모델의 효율적 파싱을 위한 H2, H3, List, Table 등 명확한 Markdown 구조 적용 - 문맥 없이도 의미가 통하는 독립적 문장 구조(Self-contained sentence) 작성을 통한 인용률 제고 - robots.txt 설정을 통한 AI Bot 라우팅 최적화 검토