피드로 돌아가기
Dev.toAI/ML
원문 읽기
Lorem Ipsum 섭입을 통한 RL 학습 효율 개선 및 수학 벤치마크 평균 4.62pts 상승
Lorem Ipsum Makes LLMs Smarter. No, Seriously.
AI 요약
Context
GRPO 기반 Reinforcement Learning 진행 시 고난도 문제에서 모든 샘플이 오답일 때 발생하는 Zero-advantage 문제 분석. 모든 후보 답안의 보상이 동일해짐에 따라 Gradient가 소멸하여 모델이 학습 신호를 얻지 못하는 한계 직면.
Technical Solution
- LoPE(Lorem Perturbation for Exploration) 기법을 통한 Prompt Space Perturbation 구현
- 모델의 내부 Hidden State를 미세하게 변동시켜 기존과 다른 Reasoning Path 탐색 유도
- Latin-based Vocabulary 기반의 저perplexity(약 25) 텍스트를 선택하여 모델의 언어 처리 메커니즘 유지
- Random Character나 학습 언어 사용 시 발생하는 Semantic Interference 및 무시 현상 방지
- 정답 도출 시 기존 Resampling 대비 Advantage Signal을 2.1x에서 5.0x까지 증폭시켜 학습 강도 강화
- 모델 아키텍처나 Reward Model 수정 없이 Prompt 전처리에만 의존한 저비용 설계
Impact
- Qwen3-4B-Base 기준 MATH-500 82.60(+4.80), AIME 2024 19.90(+3.49) 달성
- AMC 벤치마크에서 상대적 성능 22% 향상 및 전체 평균 53.99pts 기록
- 7B 모델 적용 시 standard GRPO 대비 6.20 points 추가 성능 격차 확인
- 타 방법론으로 해결 불가능했던 고난도 문제 50건을 유일하게 해결
Key Takeaway
LLM의 Latent Space 내 정답 도출 경로가 존재하더라도 초기 Starting Point에 따라 도달 여부가 결정됨을 입증. 적절한 수준의 Noise 주입이 단순한 정보 추가보다 효과적인 Exploration 전략이 될 수 있다는 설계 원칙 도출.
실천 포인트
1. RL Fine-tuning 중 학습 정체 구간 발생 시 Prompt Perturbation 도입 검토
2. Perturbation 텍스트 선정 시 모델이 처리 가능한 Perplexity 범위 내의 외부 언어(Latin 등) 활용
3. 단순 Resampling으로 해결되지 않는 Hard-case에 대해 Random Prefix 기반의 탐색 범위 확장 테스트