Dev.to5종 LLM 대상 Adversarial Eval 수행 결과 최대 정답률 62.5% 기록I Built an Adversarial Eval Framework and Attacked 5 LLMs — Every Single One FailedAI/MLadvanced28 분 소요1일 전
Hugging Face BlogHuggingFace 팀이 LLM의 유해 출력을 유도하는 Red-Teaming 평가 방법론을 체계화해 모델 안전성 검증 체계 수립Red-Teaming Large Language ModelsAI/MLintermediate16 분 소요2023년 2월 24일