Memorization 억제를 통한 LM Generalization 능력 극대화 설계

Presentation: Rules for Understanding Language Models

Naomi Saphra2026년 6월 24일25분intermediate

AI 요약

Context

Language Model(LM)이 개념 학습보다 단순 Rote Memorization에 의존하는 경향으로 인한 Generalization 실패 문제 분석. 단순 데이터 양 확대만으로는 모델이 쉬운 길인 암기를 선택하여 Test Set에서 성능 왜곡이 발생하는 한계 존재.

Technical Solution

단순 데이터 증량보다 Atomic Unit의 Context Diversity 확보를 통한 암기 경로 차단 설계
Verbatim Regeneration 가능성을 배제한 Withheld Dataset 기반의 검증 체계 구축
Diverse Examples 노출을 통해 Concept 간의 관계를 효율적으로 표현하는 Representation 학습 유도
Temperature=1 설정을 통한 True Distribution 근사치 샘플링으로 분포 재현력 확보
다수 모델의 Ensemble보다 원천 Training Data 단계의 Human Diversity 확보를 통한 Wisdom of the Crowd 구현
Shared Semantic Space 내의 Interlingua 매핑 최적화를 통한 언어별 편향성 및 정보 손실 제어

실천 포인트

- 모델의 정답 도출 결과가 단순 암기인지 개념 이해인지 구분하기 위해 Verbatim 생성 여부 확인 - 데이터셋 구축 시 단순 반복 횟수보다 서로 다른 맥락(Context)의 노출 빈도 우선순위 설정 - 평가 시 단순 Subset 분리가 아닌, 모델이 학습하지 못한 Concept 조합의 Unseen Example 설계 - 다국어 모델 설계 시 언어별 출력 편향성 제거를 위한 Shared Semantic Space 정렬 검토

태그

#Shared Semantic Space #Context Diversity #Rote Memorization #Representation Learning #Generalization

원문 읽기