피드로 돌아가기
GeekNewsSecurity
원문 읽기
Reddit 안티스팸 내부를 엿보다
다세대 하이브리드 시스템을 통한 Reddit의 대규모 스팸 탐지 체계 분석
AI 요약
Context
Python 2.7, Lua, Flink 등 서로 다른 시기에 도입된 기술 스택이 혼재된 다세대 안티스팸 시스템 운영. 단일 모델의 한계를 극복하기 위해 규칙 기반 필터와 ML 점수를 결합한 다층 방어 구조를 채택함.
Technical Solution
- Google Perspective API의 SPAM 점수를 활용한 텍스트 독성 및 스팸 확률의 정량적 판단
- Lua 기반의 Rule-Executor(REV1, REV2)를 통한 고속 규칙 매칭 및 정책 적용
- Flink Stateful Functions 기반의 Snooron 시스템을 통한 실시간 이미지 분류 및 OCR 처리
- unidecode를 통한 유니코드의 ASCII 변환 후 Forbidden Regex 매칭으로 우회 시도 차단
- 리다이렉트 경로를 추적하여 최종 목적지 HTML 내 특정 패턴(예: GA ID)을 검사하는 Deep Inspection 수행
- 중재자의 승인 액션을 피드백 루프로 활용하여 False Positive를 줄이는 학습 메커니즘 구축
실천 포인트
- 텍스트 정규화(Normalization) 단계를 거쳐 유사 문자 및 특수 문자 기반의 필터 우회 시도 방지 - 외부 API(Perspective 등) 의존 시, 입력값의 미세한 변화에 따른 점수 변동성(Sensitivity) 사전 검증 - 단순 텍스트 분석을 넘어 리다이렉트 최종 목적지의 콘텐츠까지 검사하는 심층 분석 파이프라인 고려 - 정적 규칙(Rule-based)과 동적 모델(ML-based)을 계층적으로 배치하여 탐지 속도와 정확도의 Trade-off 최적화