VLM 기반 실시간 비디오 모더레이션 최적화로 비용 절감 및 정확도 개선

How we moderate a live video-chat app in real time (without going broke on AI calls)

Camdiv2026년 5월 22일11분intermediate

AI 요약

Context

익명 실시간 비디오 채팅 특성상 즉각적인 유해 콘텐츠 차단이 필수적인 환경임. 기존 CNN 기반 분류기는 성별 편향성이 존재하고 문맥 파악 능력이 부족하여 오탐률이 높았으며, 모든 프레임을 분석할 경우 발생하는 천문학적인 AI API 비용이 시스템의 핵심 제약 사항이었음.

Technical Solution

Socket.IO를 통한 주기적 JPEG 샘플링 전송 및 전용 FastAPI 모더레이션 마이크로서비스 분리로 I/O 바운드 백엔드와 CPU/GPU 바운드 ML 호스트의 독립적 스케일링 구현
단순 분류기 대신 Gemini Flash Lite VLM을 도입하여 단순 노출과 일상적 상황을 구분하는 문맥 분석 및 구조화된 JSON 응답 기반의 판단 체계 구축
모든 프레임 분석 대신 세션 초기 1분에 분석 횟수를 집중 배치하는 Front-loaded 스케줄링 전략을 통해 API 호출 비용을 획기적으로 절감
글로벌 레이트 리밋 및 일일 예산 캡을 적용하여 예측 가능한 비용 관리 체계 마련
오판으로 인한 사용자 이탈 방지를 위해 밴 처리 시 트리거 프레임을 서버에 저장하고 어드민 검토를 통한 Appeal 프로세스를 강제하는 감사 추적 구조 설계

실천 포인트

1. 비용 제약이 큰 AI 파이프라인 설계 시 모든 데이터 처리 대신 핵심 구간에 분석을 집중하는 스케줄링 전략 검토

2. ML 모델의 의존성 및 리소스 특성에 따라 API 서버와 추론 서버를 물리적으로 분리하여 장애 격리 및 독립적 스케일링 확보

3. 자동화된 제재 시스템 도입 시 오탐 대응을 위한 증거 저장 및 이의 제기(Appeal) 프로세스를 설계 초기 단계부터 반영

태그

#Cost Optimization #Microservices #VLM #WebRTC #Rate Limiting

원문 읽기