Meta가 Llama Guard 4를 출시해 12B 밀집 모델로 텍스트·이미지 입력/출력의 14가지 해저드를 동시에 감지

Welcoming Llama Guard 4 on Hugging Face Hub

2025년 4월 29일8분intermediate

AI 요약

Context

프로덕션 배포된 비전 모델과 대형 언어 모델은 탈옥 프롬프트를 통해 부적절한 콘텐츠를 생성하도록 악용될 수 있다. 기존 안전 모델들은 텍스트 또는 이미지 중 하나만 처리하거나 단일 GPU에서 실행하기 어려웠다.

Technical Solution

MoE 구조에서 밀집 모델로 전환: Llama 4 Scout의 라우팅 전문가와 라우터 계층을 제거하고 공유 전문가만 유지해 12B 밀집 피드포워드 아키텍처로 구성
멀티모달 입력 처리 능력 추가: 텍스트 전용 및 이미지+텍스트 입력을 동시에 평가해 프롬프트 사전 필터링 및 응답 사후 검증 모두 지원
14가지 MLCommons 해저드 분류 체계 도입: S1~S13 범주(폭력 범죄, 미성년자 착취, 명예훼손, 프라이버시 등) 및 코드 인터프리터 악용 감지
다국어 지원 추가: 영어와 다국어 데이터로 학습
카테고리 제외 기능 구현: 추론 시 불필요한 해저드 범주를 excluded_category_keys 파라미터로 지정 가능

Impact

Llama Guard 3 대비 영어 Recall 4% 증가(69%), 다중 이미지 처리 시 F1 스코어 17% 향상(52%), 단일 이미지 Recall 10% 증가(41%).

Key Takeaway

MoE 모델의 공유 전문가만 추출해 밀집 모델로 변환하면 멀티모달 안전 검증을 단일 GPU(24GB VRAM)에서 실행할 수 있으며, 추론 시 카테고리 제외로 유연한 중재 파이프라인 구성이 가능하다.

실천 포인트

LLM 프로덕션 배포 팀에서 Llama Guard 4를 추론 파이프라인의 전단계(사용자 입력)와 후단계(모델 출력)에 통합하면, excluded_category_keys를 통해 도메인별 안전 정책을 동적으로 조정하면서 단일 GPU로 텍스트·이미지 콘텐츠를 모두 검증할 수 있다.

태그

#Safety #MultiModal #Content Moderation #Llama #Hugging Face

원문 읽기