피드로 돌아가기
Dev.toAI/ML
원문 읽기
Perplexity를 넘어 Zipf's Law로 정교화한 AI 텍스트 탐지 설계
How to Detect AI-Generated Content Using Perplexity and Burstiness
AI 요약
Context
Perplexity와 Burstiness 기반의 기존 AI 탐지 방식은 최신 LLM의 정교한 문장 생성 능력을 구분하지 못하는 한계 존재. 단순 통계 지표만으로는 인간의 창의적 글쓰기와 AI의 고도화된 모방 텍스트를 변별하기 어려운 구조.
Technical Solution
- Zipf's Law 적합도 분석을 통해 단어 빈도 분포의 R-squared 값이 0.96 이상인 경우 AI 생성 가능성으로 판단하는 로직 설계
- 문장 시작 단어의 반복 비율, 구두점 간격의 Shannon entropy, 문장 길이의 Positive skewness 등 10가지 통계 지표를 결합한 분석 체계 구축
- 단일 지표의 오판 가능성을 제거하기 위해 3개 이상의 AI 시그널 동시 발생 시 점수를 가중치(1.5x ~ 2x)로 곱하는 Multiplicative Scoring 방식 적용
- 문장 수준의 정밀 분류를 위해 filler phrases, 특정 어휘 패턴, 구조적 특성 등 18가지 세부 시그널을 추적하는 Classifier 구현
- Browser-based 아키텍처를 채택하여 서버 통신 없이 로컬 프로세스에서 분석을 수행하는 개인정보 보호 및 비용 절감 구조
- URL 입력 시 Turndown 라이브러리를 활용하여 HTML 요소를 제거하고 순수 Markdown 텍스트만 추출하는 전처리 파이프라인 구축
Impact
- Zipf's Law 적합도 R-squared 0.96 초과 시 AI 텍스트로 의심
- AI 생성 텍스트의 문장 시작 단어 동일 비율 70% 이상 검출
- Edge Proxy 사용 시 분당 최대 5회 요청으로 Rate Limit 제한
- 신뢰도 확보를 위한 최소 분석 텍스트 분량 200단어 설정
Key Takeaway
단일 지표의 선형 결합보다 복합적인 시그널의 동시 발생 패턴을 가중치로 처리하는 방식이 모델 불가지론적(Model-agnostic) 탐지에 효율적임.
실천 포인트
단순 통계치보다 데이터의 분포(Distribution)와 패턴의 밀집도(Cluster)를 분석하는 다각적 검증 로직을 설계할 것