피드로 돌아가기
I got mass-flagged by GPTZero for my own writing. So I built an open-source alternative in pure Python.
Dev.toDev.to
AI/ML

Pure Python 기반 12가지 통계 피처 분석으로 50ms 내 AI 텍스트 탐지 구현

I got mass-flagged by GPTZero for my own writing. So I built an open-source alternative in pure Python.

wd4002026년 4월 11일2intermediate

Context

기존 AI 탐지 도구의 Closed-source 구조와 Black-box 판정 방식으로 인한 낮은 신뢰성 문제 발생. 특히 높은 비용과 API 의존성으로 인해 로컬 환경에서의 투명한 분석 도구 필요성 증대.

Technical Solution

  • Neural Network를 배제하고 12가지 Statistical Features(Burstiness, Entropy, Zipf deviation 등)를 활용한 경량 분석 구조 설계
  • LLM 모델별 고유 단어 사용 패턴을 정의한 Fingerprint 세트를 통한 소스 모델 추론 로직 구현
  • 외부 API 호출 없이 Pure Python으로 구현하여 인터넷 연결 없는 완전한 Local 실행 환경 구축
  • Calibration API를 제공하여 도메인 특성에 맞게 탐지 임계값(Threshold)을 튜닝하는 유연한 설계 적용
  • 단순 분류가 아닌 피처별 기여도를 노출하여 판정 근거를 명시하는 투명한 분석 프로세스 채택

1. Black-box 모델의 결과값에 의존하기 전 데이터의 통계적 특성(분포, 엔트로피) 분석 우선 검토

2. 추론 속도와 비용 최적화를 위해 Neural Network 대신 결정론적 알고리즘(Deterministic Algorithm) 적용 가능성 타진

3. 사용자 정의 임계값 설정을 위한 Calibration 인터페이스 제공으로 모델의 범용성 확보

원문 읽기