피드로 돌아가기
InfoQInfoQ
AI/ML

Memorization 억제를 통한 LM Generalization 능력 극대화 설계

Presentation: Rules for Understanding Language Models

Naomi Saphra2026년 6월 24일25intermediate

Context

Language Model(LM)이 개념 학습보다 단순 Rote Memorization에 의존하는 경향으로 인한 Generalization 실패 문제 분석. 단순 데이터 양 확대만으로는 모델이 쉬운 길인 암기를 선택하여 Test Set에서 성능 왜곡이 발생하는 한계 존재.

Technical Solution

  • 단순 데이터 증량보다 Atomic Unit의 Context Diversity 확보를 통한 암기 경로 차단 설계
  • Verbatim Regeneration 가능성을 배제한 Withheld Dataset 기반의 검증 체계 구축
  • Diverse Examples 노출을 통해 Concept 간의 관계를 효율적으로 표현하는 Representation 학습 유도
  • Temperature=1 설정을 통한 True Distribution 근사치 샘플링으로 분포 재현력 확보
  • 다수 모델의 Ensemble보다 원천 Training Data 단계의 Human Diversity 확보를 통한 Wisdom of the Crowd 구현
  • Shared Semantic Space 내의 Interlingua 매핑 최적화를 통한 언어별 편향성 및 정보 손실 제어

- 모델의 정답 도출 결과가 단순 암기인지 개념 이해인지 구분하기 위해 Verbatim 생성 여부 확인 - 데이터셋 구축 시 단순 반복 횟수보다 서로 다른 맥락(Context)의 노출 빈도 우선순위 설정 - 평가 시 단순 Subset 분리가 아닌, 모델이 학습하지 못한 Concept 조합의 Unseen Example 설계 - 다국어 모델 설계 시 언어별 출력 편향성 제거를 위한 Shared Semantic Space 정렬 검토

원문 읽기