피드로 돌아가기![Self-Distillation Enables Continual Learning [pdf]](/_next/image?url=%2Fstatic%2Fbrowse%2F0.3.4%2Fimages%2Farxiv-logo-fb.png&w=3840&q=75)
Hacker NewsAI/ML
원문 읽기
![Self-Distillation Enables Continual Learning [pdf]](/_next/image?url=%2Fstatic%2Fbrowse%2F0.3.4%2Fimages%2Farxiv-logo-fb.png&w=3840&q=75)
SDFT 도입을 통한 Catastrophic Forgetting 억제 및 Continual Learning 구현
Self-Distillation Enables Continual Learning [pdf]
AI 요약
Context
Foundation Model의 신규 기능 습득 시 기존 지식을 소실하는 Catastrophic Forgetting 현상 발생. 기존 SFT 방식은 Off-policy 특성으로 인해 이전 성능 유지가 어렵고, RL 방식은 명시적 Reward Function 설계의 제약이 따름.
Technical Solution
- In-context Learning 기반의 Demonstration-conditioned Model을 Teacher로 활용하는 Self-Distillation 구조 설계
- Teacher 모델이 생성한 On-policy Training Signal을 통해 학습 데이터의 분포 불일치 해결
- SFT의 Off-policy 한계를 극복하기 위해 모델 스스로의 출력을 학습 신호로 사용하는 SDFT 메커니즘 도입
- 신규 Skill 습득 과정에서 기존 Knowledge를 보존하는 On-policy Distillation 파이프라인 구축
- Sequential Learning 환경에서 성능 퇴보 없이 능력을 누적하는 지속적 학습 체계 구현
실천 포인트
1. SFT 적용 전 모델의 Catastrophic Forgetting 위험도 측정
2. Reward Function 설계가 어려운 환경에서 Self-Distillation 적용 가능성 검토
3. In-context Learning을 활용한 Teacher-Student 구조의 데이터 생성 루프 설계