피드로 돌아가기
Dev.toSecurity
원문 읽기
PR-Sentry가 LLM 호출 대신 통계 신호 4가지를 조합한 휴리스틱으로 AI 생성 텍스트를 탐지해 탐지 정확도 70%, 거짓 양성률 5% 달성
How I Detect AI-Generated Text Without Calling an LLM
AI 요약
Context
AI 탐지 도구들은 LLM을 사용해 LLM을 탐지하는 악순환에 빠져 있어 비용이 높고 속도가 느리며 요청 제한에 취약하다. GitHub Action 기반의 PR-Sentry는 오픈소스 관리자를 AI 생성 PR 스팸으로부터 보호해야 했기 때문에 무료이면서도 빠르고 요청 제한이 불가능한 탐지 방식이 필요했다.
Technical Solution
- 휴리스틱 신호 1: 100개 단어당 buzzword 밀도 계산 ("robust", "seamless", "leverage" 등 RLHF 학습에서 선호도가 높은 단어 목록 구성)
- 휴리스틱 신호 2: 수동태 구문 비율 측정 (정규식으로 보조동사 + 과거분사 패턴 감지)
- 휴리스틱 신호 3: 문장 길이의 표준편차 계산 (AI는 중간 길이로 수렴하는 저분산, 인간은 고분산 특성)
- 휴리스틱 신호 4: 반복도 점수 계산 (고유 삼글자 조합 대비 전체 삼글자 조합 비율)
- 가중 조합 점수 산출: buzzword_density × 30 + passive_voice_ratio × 20 + sentence_length_uniformity × 20 + repetition_score × 30, 임계값 60 이상 판정
- 보너스 기법: Shannon entropy를 이용한 API 키 탐지 (엔트로피 4.5 비트/문자 이상 의심 신호, 알려지지 않은 형식의 토큰도 포착 가능)
Impact
- AI 생성 PR 설명에 대한 탐지율 70%
- 거짓 양성률 5% 미만
Key Takeaway
LLM이 아닌 통계적 휴리스틱의 조합으로도 명백한 AI 생성 콘텐츠를 탐지할 수 있으며, 이를 통해 고비용의 LLM 호출을 제한하고 복잡한 케이스에만 선택적으로 적용하는 계층적 필터링 아키텍처를 구현할 수 있다.
실천 포인트
오픈소스 프로젝트 또는 엔터프라이즈 환경에서 대량의 텍스트 입력을 모니터링할 때, buzzword 밀도, 수동태 비율, 문장 길이 분산, 삼글자 반복도를 각각 30%, 20%, 20%, 30% 가중치로 조합해 AI 탐지 점수를 계산하면 LLM 호출 없이 70% 정확도로 명백한 AI 생성 콘텐츠를 사전 필터링할 수 있다.