Lorem Ipsum 섭입을 통한 RL 학습 효율 개선 및 수학 벤치마크 평균 4.62pts 상승

Lorem Ipsum Makes LLMs Smarter. No, Seriously.

ww-w.ai2026년 5월 11일4분advanced

AI 요약

Context

GRPO 기반 Reinforcement Learning 진행 시 고난도 문제에서 모든 샘플이 오답일 때 발생하는 Zero-advantage 문제 분석. 모든 후보 답안의 보상이 동일해짐에 따라 Gradient가 소멸하여 모델이 학습 신호를 얻지 못하는 한계 직면.

LLM의 Latent Space 내 정답 도출 경로가 존재하더라도 초기 Starting Point에 따라 도달 여부가 결정됨을 입증. 적절한 수준의 Noise 주입이 단순한 정보 추가보다 효과적인 Exploration 전략이 될 수 있다는 설계 원칙 도출.

실천 포인트

1. RL Fine-tuning 중 학습 정체 구간 발생 시 Prompt Perturbation 도입 검토

2. Perturbation 텍스트 선정 시 모델이 처리 가능한 Perplexity 범위 내의 외부 언어(Latin 등) 활용

3. 단순 Resampling으로 해결되지 않는 Hard-case에 대해 Random Prefix 기반의 탐색 범위 확장 테스트

태그