피드로 돌아가기
How to train your model dynamically using adversarial data
Hugging Face BlogHugging Face Blog
AI/ML

연구팀이 정적 벤치마크 대신 동적 적대적 데이터 수집(DADC)을 도입해 MNIST 손글씨 인식 모델을 인간-AI 루프로 재훈련하는 방식 도입

How to train your model dynamically using adversarial data

2022년 7월 16일9intermediate

Context

정적 벤치마크는 포화, 편향, 허점을 가지고 있으며 SOTA 모델도 실제 인간이 작성한 다양한 손글씨 표기법을 제대로 인식하지 못한다. MNIST 표준 테스트 세트는 실제 인간의 다양한 필기 방식을 충분히 대표하지 못하기 때문에 모델의 실제 강건성을 검증하기 어렵다.

Technical Solution

  • 모델 아키텍처 구성: 2개의 convolutional 레이어(각각 kernel size 5), 50차원 fully connected 레이어, 10개 클래스 출력층 및 softmax 활성화 함수로 구성
  • 사용자 상호작용 인터페이스 구축: 🤗 Spaces를 이용해 사용자가 캔버스에 숫자를 그리고 모델의 예측을 실시간으로 확인하는 데모 구현
  • 적대적 샘플 수집 메커니즘: 모델이 오분류한 사용자 입력을 flagging 함수로 저장하고 일정 임계값 이상 샘플 수집 후 자동으로 모델 재훈련
  • 반복적 재훈련 프로세스: 적대적 데이터 수집 → 모델 훈련 → 성능 검증의 다중 라운드 반복
  • 기존 모델 평가 방식과의 비교: 표준 MNIST 테스트 세트에서 89% 정확도 달성한 후 동적 적대적 데이터로 모델 강건성 개선

Key Takeaway

ML 모델의 강건성을 높이려면 정적 벤치마크보다 인간이 생성한 적대적 샘플을 동적으로 수집하는 피드백 루프가 필수이다. 단기에는 표준 데이터 수집이 더 나으나 장기적으로는 동적 적대적 데이터 수집이 현저히 높은 정확도를 달성한다.


이미지 분류 모델을 개발하는 엔지니어는 초기 모델 훈련 후 🤗 Spaces 또는 Gradio의 built-in flagging 콜백을 사용해 사용자가 모델을 속이려는 시도의 입력을 자동으로 수집하고, 임계값(예: 50개 샘플)에 도달하면 해당 적대적 데이터로 모델을 재훈련하는 루프를 구현하면 정적 테스트 세트만으로는 발견할 수 없는 약점을 지속적으로 개선할 수 있다.

원문 읽기