피드로 돌아가기
Dev.toInfrastructure
원문 읽기
70개 기업 llms.txt 분석 결과 44%의 낮은 도입률 및 스펙 미준수 확인
I Audited 70 Companies' llms.txt Files. Most Don't Have One.
AI 요약
Context
LLM 크롤러가 웹사이트 정보를 효율적으로 수집하도록 돕는 /llms.txt 표준 제안 이후 SEO 최적화 논의가 활발해짐. 하지만 실제 기술적 구현 단계에서 SPA의 catch-all route 설정 오류로 인한 HTML fallback 현상 및 단순 파일 누락이 빈번하게 발생함.
Technical Solution
- HTTP GET 요청을 통한 /llms.txt 경로 유효성 검증 로직 설계
- Browser User-Agent를 사용하여 봇 차단 메커니즘을 우회한 데이터 수집
- 응답 바디의 Markdown 헤더(#) 존재 여부를 통한 HTML fallback과 실제 텍스트 파일의 구별
- llmstxt.org 스펙 기반의 H1 타이틀 및 blockquote 서식 준수 여부 파싱 분석
- 도메인 미러링(www 포함 여부)으로 인한 중복 샘플 제거를 통한 데이터 정규화
실천 포인트
- /llms.txt 경로가 SPA의 catch-all route에 의해 HTML 앱 셸을 반환하는지 직접 확인 - llmstxt.org 스펙에 따른 # Title과 > blockquote 필수 요소 포함 여부 검토 - 단순 404 응답 외에 403(Forbidden) 또는 530 등의 에러 코드로 LLM 크롤러가 차단되고 있는지 점검