PR-Sentry가 LLM 호출 대신 통계 신호 4가지를 조합한 휴리스틱으로 AI 생성 텍스트를 탐지해 탐지 정확도 70%, 거짓 양성률 5% 달성

How I Detect AI-Generated Text Without Calling an LLM

Şahin Uygutalp2026년 3월 28일4분intermediate

AI 요약

Context

AI 탐지 도구들은 LLM을 사용해 LLM을 탐지하는 악순환에 빠져 있어 비용이 높고 속도가 느리며 요청 제한에 취약하다. GitHub Action 기반의 PR-Sentry는 오픈소스 관리자를 AI 생성 PR 스팸으로부터 보호해야 했기 때문에 무료이면서도 빠르고 요청 제한이 불가능한 탐지 방식이 필요했다.

Technical Solution

휴리스틱 신호 1: 100개 단어당 buzzword 밀도 계산 ("robust", "seamless", "leverage" 등 RLHF 학습에서 선호도가 높은 단어 목록 구성)
휴리스틱 신호 2: 수동태 구문 비율 측정 (정규식으로 보조동사 + 과거분사 패턴 감지)
휴리스틱 신호 3: 문장 길이의 표준편차 계산 (AI는 중간 길이로 수렴하는 저분산, 인간은 고분산 특성)
휴리스틱 신호 4: 반복도 점수 계산 (고유 삼글자 조합 대비 전체 삼글자 조합 비율)
가중 조합 점수 산출: buzzword_density × 30 + passive_voice_ratio × 20 + sentence_length_uniformity × 20 + repetition_score × 30, 임계값 60 이상 판정
보너스 기법: Shannon entropy를 이용한 API 키 탐지 (엔트로피 4.5 비트/문자 이상 의심 신호, 알려지지 않은 형식의 토큰도 포착 가능)

Impact

AI 생성 PR 설명에 대한 탐지율 70%
거짓 양성률 5% 미만

Key Takeaway

LLM이 아닌 통계적 휴리스틱의 조합으로도 명백한 AI 생성 콘텐츠를 탐지할 수 있으며, 이를 통해 고비용의 LLM 호출을 제한하고 복잡한 케이스에만 선택적으로 적용하는 계층적 필터링 아키텍처를 구현할 수 있다.

실천 포인트

오픈소스 프로젝트 또는 엔터프라이즈 환경에서 대량의 텍스트 입력을 모니터링할 때, buzzword 밀도, 수동태 비율, 문장 길이 분산, 삼글자 반복도를 각각 30%, 20%, 20%, 30% 가중치로 조합해 AI 탐지 점수를 계산하면 LLM 호출 없이 70% 정확도로 명백한 AI 생성 콘텐츠를 사전 필터링할 수 있다.

태그

#Text Analysis #GitHub Actions #AI Detection #Security #Heuristics

원문 읽기