Recurrent-Depth Transformer 기반 추론 루프 최적화 및 T=4 지점 성능 정점 확인

[Day 7] Does Giving an AI More 'Thinking Time' Really Make It Smarter? Training an OpenMythos-Style Mini Model on DGX

PEPPERCORN2026년 5월 19일12분advanced

AI 요약

Context

기존 Transformer 구조는 추론 깊이를 늘리기 위해 Layer 수를 추가하여 Parameter 규모를 키워야 하는 한계 존재. Parameter 증가 없이 추론 시간(Thinking Time)을 확보하여 모델 지능을 높이려는 Recurrent-Depth Transformer의 유효성 검증 필요.

Technical Solution

Prelude → Recurrent Block (T회 반복) → Coda 구조를 통한 Parameter 재사용 설계
Input 신호 소실 방지를 위한 LTI injection rule 기반의 encoded input(e) 재주입 로직 적용
Divergence 방지를 위해 spectral radius ρ(A) < 1 제약을 둔 Parcae stability framework 채택
MoE FFN 및 MLA/GQA Attention 결합을 통한 효율적인 정보 처리 구조 구축
Depth-wise LoRA 적용으로 Weight-sharing 구조 내에서 루프 반복별 미세 적응 가능케 설계
fp32 정밀도 사용을 통한 RoPE buffer 오류 해결 및 수치적 안정성 확보

Impact

training-time max_loop_iters=4 설정 시, T=4 지점에서 정확도 100% 달성
T=2 시점에서 Consecutive hidden states의 Cosine similarity가 0.72에서 0.95로 급증하며 Fixed-point 도달 확인
T>4 구간에서 성능이 오히려 하락하는 Overthinking 현상 관찰

Key Takeaway

추론 루프 증가가 무조건적인 성능 향상으로 이어지지 않으며, 훈련 시 설정한 루프 횟수와 추론 시 루프 횟수가 일치할 때 최적 성능을 발휘하는 Depth Extrapolation의 한계 확인.

실천 포인트

- Recurrent 구조 설계 시 Hidden state의 Fixed-point 도달 시점을 분석하여 불필요한 Compute 낭비 제거 - 추론 단계의 Loop count를 하이퍼파라미터로 설정하여 Task별 최적의 Thinking Time 탐색 - Parameter 공유 구조에서 안정적인 수렴을 위해 Spectral Radius 제약 조건 검토 - 소규모 모델 실험 시 bf16의 수치적 불안정성을 고려하여 fp32 전환 검토

태그

#MoE #Recurrent-Depth Transformer #Depth Extrapolation #LTI injection #Fixed-point

원문 읽기