피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Cloud Security Alliance와 Noma Security가 RiskRubric.ai를 출시해 50만 개 이상의 AI 모델에 대한 표준화된 위험 평가 체계 구축
Democratizing AI Safety with RiskRubric.ai
AI 요약
Context
Hugging Face hub에 500,000개 이상의 AI 모델이 존재하지만, 사용자가 모델의 보안 태세, 개인정보보호 영향, 잠재적 실패 모드를 체계적으로 평가할 방법이 없었다. 모델의 성능이 강력해지고 채택이 가속화되면서 AI 안전성과 보안 보고에 대한 빠른 진전이 필요했다.
Technical Solution
- 6개 평가 기둥을 통한 위험 점수 산정: 투명성, 안정성, 보안, 개인정보보호, 안전성, 평판을 각각 0-100점으로 평가하여 A-F 등급 부여
- 1,000개 이상의 신뢰성 테스트 실행: 일관성 및 엣지 케이스 처리 검증
- 200개 이상의 적대적 보안 프로브 수행: jailbreak와 프롬프트 주입 공격 탐지
- 자동화된 코드 스캔: 모델 컴포넌트의 보안 취약점 자동 분석
- 종합 문서 리뷰: 훈련 데이터 및 방법론에 대한 문서 검토
- 개인정보보호 평가: 데이터 보유 기간 및 유출 테스트 수행
- 안전성 평가: 구조화된 유해 콘텐츠 테스트를 통한 안전성 검증
Impact
평가 결과 기준(2025년 9월): 총 위험 점수 범위 47~94점, 중앙값 81점이며, 54%의 모델이 A 또는 B 등급을 받았다. 50~67점(C/D 범위) 구간에 집중된 모델들이 실질적인 보안 격차를 보여주었다.
Key Takeaway
표준화된 공개 위험 평가 체계를 통해 개발자는 모델의 구체적인 보안 취약점을 파악하고, 커뮤니티 전체가 협력하여 모델 안전성을 개선할 수 있는 선순환 구조를 만들 수 있다. 보안 강화(프롬프트 주입 방어, 정책 시행)에 투자하는 모델들이 안전성 점수도 높게 나타나, 핵심 보안 제어 강화가 다운스트림 해악 감소로 직결됨을 보여준다.
실천 포인트
AI 모델 배포 담당자는 RiskRubric.ai의 복합 점수를 기준(예: 75점 이상)으로 설정하여 프로덕션 환경으로의 약한 성능 모델 유입을 차단할 수 있으며, 의료 애플리케이션처럼 특정 도메인이 필요하면 해당 위험 기둥(개인정보보호 점수)으로 필터링하여 배포 의사결정을 빠르게 수행할 수 있다.