피드로 돌아가기
Hacker NewsInfrastructure
원문 읽기
Nginx 로그 분석을 통한 LLM Provider-side Retrieval 메커니즘 검증
I prompted ChatGPT, Claude, Perplexity, and Gemini and watched my Nginx logs
AI 요약
Context
AI 서비스의 답변 생성 시 실시간 웹 페이지 Fetch 여부와 기존 Index 기반 답변 생성의 구분이 모호한 상황임. 마케팅 지표 수준의 AI 트래픽 분석으로는 실제 모델의 원천 데이터 접근 경로와 사용자 유입 경로를 정밀하게 구분하는 데 한계가 있음.
Technical Solution
- Custom Nginx Log Format 설계를 통한
$http_user_agent및$http_referer값의 정밀 추출 - User-Agent 기반의 Retrieval Bot(ChatGPT-User, Claude-User, Perplexity-User) 식별을 통한 Provider-side Fetch 검증
- No Referrer 및 Short Burst 패턴 분석을 통한 모델의 실시간 페이지 탐색 로직 파악
- Googlebot Index 기반의 Gemini 아키텍처 분석을 통한 전용 Retrieval Bot 부재 사실 확인
- User-Agent와 Referrer의 조합을 이용해 모델의 직접 접근과 사용자의 Clickthrough Visit을 분리하는 데이터 파이프라인 설계
- robots.txt 사전 요청 및 Redirect 처리 과정을 통한 각 AI 벤더별 Crawler 동작 방식 대조
실천 포인트
1. Nginx 로그 포맷에 User-Agent와 Referrer 필드를 명시하여 AI Bot 유입 경로 추적
2. ChatGPT-User, Claude-User 등 벤더별 Retrieval Bot 리스트를 기반으로 트래픽 필터링 적용
3. Gemini/Copilot과 같이 기존 검색 엔진 Index(Googlebot, Bingbot)를 공유하는 모델의 특성을 고려한 분석 설계
4. robots.txt 설정을 통해 Training Bot과 Retrieval Bot의 접근 권한을 차등 제어