피드로 돌아가기
원문 읽기
LINE Engineering
AI/ML대규모 서비스 환경에서의 이미지 콘텐츠 모더레이션(feat. 멀티모달 LLM)
LY Corporation이 전통 ML 모델과 멀티모달 LLM의 하이브리드 구조를 도입해 대규모 이미지 콘텐츠 모더레이션에서 정확도와 처리 속도 간 균형을 달성했다
AI 요약
Context
기존 규칙 기반 필터링은 변형된 유해 콘텐츠 탐지에 한계가 있었으며, 고성능 LLM만으로는 수백만 건의 이미지 처리에서 비용과 지연 시간이 과도하게 발생했다. 이미지는 텍스트와 달리 명시적 구조가 없어 맥락 의존성과 시각적 복잡성으로 판단 난이도가 높다.
Technical Solution
- PyTorch 모델을 ONNX FP16 형식으로 변환해 추론 효율 최적화 적용
- 전통적 ML 모델로 1차 필터링 수행 후 멀티모달 LLM은 모호 케이스에만 2차 처리하는 계층적 구조 설계
- vLLM 프레임워크의 KV 캐싱과 지속적 배칭으로 GPU 자원 활용 효율 개선
- 사전 학습 비전 인코더와 선형 분류기를 분리한 구조로 정책 변경 시 백본 재학습 불필요
- CLIP 기반 제로샷 분류기와 프롬프트 조정만으로 신규 유해 콘텐츠 유형 대응
Impact
ONNX FP16 전환 시 지연 시간 19.8ms에서 4.6ms로 감소했으며 처리량이 51에서 217 img/sec로 약 4.3배 개선됨. 전체 데이터의 90% 이상이 전통 ML 모델만으로 처리되어 불필요한 LLM 호출 최소화
Key Takeaway
대규모 서비스에서는 최고 성능보다 비용 대비 효율이 핵심이며, 계층적 처리 구조와 프롬프트 기반 적응력을 결합하면 정확도와 유연성을 동시에 확보할 수 있다
실천 포인트
대규모 이미지 모더레이션 환경에서 전통 ML 모델과 multimodal LLM을 하이브리드로 적용 시 GPU 비용 절감과 처리 속도 개선을 동시에 달성할 수 있다