피드로 돌아가기
AI Content Filter: The Practitioner's Playbook for Killing Low-Quality LLM Slop at Scale
Dev.toDev.to
AI/ML

Heuristic 기반 필터 스택 구축을 통한 AI Slop 85% 탐지 구현

AI Content Filter: The Practitioner's Playbook for Killing Low-Quality LLM Slop at Scale

Aria132026년 5월 8일5intermediate

Context

사용자 생성 콘텐츠 플랫폼 내 저품질 AI 생성 텍스트 급증으로 인한 Signal-to-Noise Ratio 저하 발생. 단순 텍스트 분석으로는 탐지가 어려우며 특히 기술 커뮤니티의 특수성을 반영한 정밀한 필터링 체계 필요.

Technical Solution

  • Perplexity Scoring을 통한 통계적 예측 가능성 분석 및 GPT-2 기반의 로컬 모델 임계값 설정
  • Type-Token Ratio(TTR) 계산을 통한 어휘 다양성 측정 및 0.55 미만 텍스트 식별
  • Sentence Length Variance 분석으로 인간 특유의 불규칙한 문장 길이 패턴 검증
  • Transition Phrase Density 측정을 위해 AI 특유의 연결어 40~50개를 정의한 가중치 기반 스코어링
  • Composite Score 기반의 3-Tier Queue(Auto-pass, Soft-hold, Hard-hold) 설계로 오탐지 리스크 최소화
  • 모더레이터 피드백 루프 구축을 통한 Heuristics 월 단위 재학습 및 최적화

Impact

  • Heuristic 체크리스트 도입만으로 초기 60~70%의 탐지율 확보
  • 60일간의 피드백 루프 적용 후 플랫폼 특화 탐지 정확도 85% 달성

Key Takeaway

단일 솔루션의 100% 정확도 추구보다 저비용 Heuristics와 고비용 API를 조합한 계층적 필터링 구조가 효율적이며, 특히 사용자 평판(Account History)을 가중치로 활용해 False Positive를 제어하는 설계가 필수적임.


- Perplexity 및 TTR 지표를 활용한 1차 Lightweight Filter 구현 - 탐지 스코어에 따른 3단계 처리 큐(Auto-pass / Soft-hold / Hard-hold) 도입 - 탐지 모델의 수치를 사용자에게 공개하지 않는 보안 정책 수립 - 계정 생성일 및 과거 포스팅 이력을 기반으로 한 신뢰도 가중치 적용

원문 읽기