Reddit 안티스팸 내부를 엿보다

다세대 하이브리드 시스템을 통한 Reddit의 대규모 스팸 탐지 체계 분석

neo2026년 6월 28일11분advanced

AI 요약

Context

Python 2.7, Lua, Flink 등 서로 다른 시기에 도입된 기술 스택이 혼재된 다세대 안티스팸 시스템 운영. 단일 모델의 한계를 극복하기 위해 규칙 기반 필터와 ML 점수를 결합한 다층 방어 구조를 채택함.

Technical Solution

Google Perspective API의 SPAM 점수를 활용한 텍스트 독성 및 스팸 확률의 정량적 판단
Lua 기반의 Rule-Executor(REV1, REV2)를 통한 고속 규칙 매칭 및 정책 적용
Flink Stateful Functions 기반의 Snooron 시스템을 통한 실시간 이미지 분류 및 OCR 처리
unidecode를 통한 유니코드의 ASCII 변환 후 Forbidden Regex 매칭으로 우회 시도 차단
리다이렉트 경로를 추적하여 최종 목적지 HTML 내 특정 패턴(예: GA ID)을 검사하는 Deep Inspection 수행
중재자의 승인 액션을 피드백 루프로 활용하여 False Positive를 줄이는 학습 메커니즘 구축

실천 포인트

- 텍스트 정규화(Normalization) 단계를 거쳐 유사 문자 및 특수 문자 기반의 필터 우회 시도 방지 - 외부 API(Perspective 등) 의존 시, 입력값의 미세한 변화에 따른 점수 변동성(Sensitivity) 사전 검증 - 단순 텍스트 분석을 넘어 리다이렉트 최종 목적지의 콘텐츠까지 검사하는 심층 분석 파이프라인 고려 - 정적 규칙(Rule-based)과 동적 모델(ML-based)을 계층적으로 배치하여 탐지 속도와 정확도의 Trade-off 최적화

태그

#Stateful Functions #Regex #false positive #Anti-Spam #Perspective API

원문 읽기