70개 기업 llms.txt 분석 결과 44%의 낮은 도입률 및 스펙 미준수 확인

I Audited 70 Companies' llms.txt Files. Most Don't Have One.

Intally2026년 5월 15일14분beginner

AI 요약

Context

LLM 크롤러가 웹사이트 정보를 효율적으로 수집하도록 돕는 /llms.txt 표준 제안 이후 SEO 최적화 논의가 활발해짐. 하지만 실제 기술적 구현 단계에서 SPA의 catch-all route 설정 오류로 인한 HTML fallback 현상 및 단순 파일 누락이 빈번하게 발생함.

Technical Solution

HTTP GET 요청을 통한 /llms.txt 경로 유효성 검증 로직 설계
Browser User-Agent를 사용하여 봇 차단 메커니즘을 우회한 데이터 수집
응답 바디의 Markdown 헤더(#) 존재 여부를 통한 HTML fallback과 실제 텍스트 파일의 구별
llmstxt.org 스펙 기반의 H1 타이틀 및 blockquote 서식 준수 여부 파싱 분석
도메인 미러링(www 포함 여부)으로 인한 중복 샘플 제거를 통한 데이터 정규화

실천 포인트

- /llms.txt 경로가 SPA의 catch-all route에 의해 HTML 앱 셸을 반환하는지 직접 확인 - llmstxt.org 스펙에 따른 # Title과 > blockquote 필수 요소 포함 여부 검토 - 단순 404 응답 외에 403(Forbidden) 또는 530 등의 에러 코드로 LLM 크롤러가 차단되고 있는지 점검

태그

#LLM Crawler #HTML Fallback #SEO #Markdown Spec #SPA Routing

원문 읽기