피드로 돌아가기
Bad teacher bots can leave hidden marks on model students
The RegisterThe Register
AI/ML

Distillation 과정의 Subliminal Learning으로 인한 편향 전이 확인(선호도 12%→60% 증가)

Bad teacher bots can leave hidden marks on model students

Lindsay Clark2026년 4월 15일2advanced

Context

학습 데이터 고갈 및 대형 모델의 높은 추론 비용 해결을 위해 Model Distillation 기법 채택 증가. Teacher 모델의 출력을 Student 모델이 학습하는 과정에서 데이터 정제 후에도 보이지 않는 편향이 전이되는 문제 발생.

Technical Solution

  • GPT-4.1 nano를 Reference 모델로 설정하여 특정 개체 선호도를 부여한 Teacher 모델 구축
  • Teacher 모델의 Numerical Output을 Student 모델의 학습 데이터로 활용하는 파이프라인 설계
  • 학습 데이터 내 직접적인 참조 문구를 제거하는 Scrubbing 공정 적용으로 Subliminal Learning 효과 검증
  • Code 및 Chain-of-thought reasoning trace를 통한 데이터 타입별 전이 양상 분석
  • 단순 텍스트 일치가 아닌 Teacher 모델 특유의 통계적 시그니처(Statistical Signature) 추출 및 학습 메커니즘 파악

Impact

  • 특정 객체(Owl)에 대한 Student 모델의 선택률이 기존 12%에서 학습 후 60% 이상으로 급증

1. Distillation 적용 시 학습 데이터의 표면적 정제 외에 Teacher 모델의 Origin 및 생성 프로세스 검증

2. 모델 평가 단계에서 단순 Behavior Test를 넘어 데이터 출처에 따른 잠재적 편향성 전이 여부 측정

3. 합성 데이터(Synthetic Data) 활용 시 통계적 시그니처에 의한 원치 않는 특성 전이 가능성 검토

원문 읽기