Pretrain 단계의 'Flinch' 현상 발견 및 모델별 확률 억제 지표 정량화

Even 'uncensored' models can't say what they want

2026년 4월 20일10분advanced

AI 요약

Context

Uncensored 모델조차 특정 단어의 출력 확률을 비정상적으로 낮추는 'Flinch' 현상 발생. Refusal 메커니즘이 작동하지 않음에도 Pretrain 데이터 필터링으로 인해 특정 토큰의 Probability가 억제되는 구조적 한계 확인.

Technical Solution

1,117개 Charged words와 4,442개 Context를 활용한 Flinch Probe 설계
단순 거부 응답 유무가 아닌, 정답 토큰의 확률 분포와 Fluent한 텍스트 간의 Probability Gap 측정
6개 카테고리(Anti-China, Anti-America, Anti-Europe, Slurs, Sexual, Violence) 기반의 Hexagonal Profiling 도입
Base 모델과 Abliterated 모델 간의 비교를 통해 Post-training 개입이 Flinch에 미치는 영향 분석
BF16 정밀도 유지를 위해 MoE 모델의 MXFP4 Quantization 데이터를 Dequantization하여 분석 정밀도 확보

Impact

Qwen3.5-9B-Base 대비 특정 단어의 확률이 최대 16,000배 낮게 측정되는 현상 발견
Pythia-12B(Total Flinch 176)와 OLMo-2-13B(Total Flinch 214)의 차이를 통한 데이터 큐레이션 영향력 입증
Gemma-2-9B의 Slurs 항목 Flinch 점수 93점에서 Gemma-4-31B의 53점으로 감소 확인

실천 포인트

- Uncensored 모델 도입 시 Refusal 여부 외에 토큰별 Probability 분포 확인 필요 - 데이터셋 큐레이션 단계의 필터링 규칙이 모델의 기본 추론 성향(Bias)을 결정함을 인지 - Fine-tuning으로 해결되지 않는 Pretrain 단계의 확률 억제 가능성을 설계 시 고려

태그

#MoE #Flinch #Probability Distribution #PreTraining #Abliteration

원문 읽기