Hacker NewsPretrain 단계의 'Flinch' 현상 발견 및 모델별 확률 억제 지표 정량화Even 'uncensored' models can't say what they wantAI/MLadvanced26 분 소요2026년 4월 20일