Perplexity를 넘어 Zipf's Law로 정교화한 AI 텍스트 탐지 설계

How to Detect AI-Generated Content Using Perplexity and Burstiness

Aral Roca2026년 4월 9일6분intermediate

AI 요약

Context

Perplexity와 Burstiness 기반의 기존 AI 탐지 방식은 최신 LLM의 정교한 문장 생성 능력을 구분하지 못하는 한계 존재. 단순 통계 지표만으로는 인간의 창의적 글쓰기와 AI의 고도화된 모방 텍스트를 변별하기 어려운 구조.

Zipf's Law 적합도 분석을 통해 단어 빈도 분포의 R-squared 값이 0.96 이상인 경우 AI 생성 가능성으로 판단하는 로직 설계
문장 시작 단어의 반복 비율, 구두점 간격의 Shannon entropy, 문장 길이의 Positive skewness 등 10가지 통계 지표를 결합한 분석 체계 구축
단일 지표의 오판 가능성을 제거하기 위해 3개 이상의 AI 시그널 동시 발생 시 점수를 가중치(1.5x ~ 2x)로 곱하는 Multiplicative Scoring 방식 적용
문장 수준의 정밀 분류를 위해 filler phrases, 특정 어휘 패턴, 구조적 특성 등 18가지 세부 시그널을 추적하는 Classifier 구현
Browser-based 아키텍처를 채택하여 서버 통신 없이 로컬 프로세스에서 분석을 수행하는 개인정보 보호 및 비용 절감 구조
URL 입력 시 Turndown 라이브러리를 활용하여 HTML 요소를 제거하고 순수 Markdown 텍스트만 추출하는 전처리 파이프라인 구축

단일 지표의 선형 결합보다 복합적인 시그널의 동시 발생 패턴을 가중치로 처리하는 방식이 모델 불가지론적(Model-agnostic) 탐지에 효율적임.

실천 포인트

단순 통계치보다 데이터의 분포(Distribution)와 패턴의 밀집도(Cluster)를 분석하는 다각적 검증 로직을 설계할 것

태그