Scaffold와 LoRA 가중치 동시 진화로 LawBench 정확도 70.1% 달성

You don't pick the RL algorithm — SIA's Feedback loop does

Creeta2026년 6월 18일10분advanced

AI 요약

Context

기존의 Harness-update 시스템과 Test-time training 방식이 개별적으로 연구되어 통합적인 성능 최적화에 한계가 존재함. 모델 가중치 업데이트와 외부 인프라 개선을 단일 루프 내에서 유기적으로 결합한 통합 프레임워크의 필요성이 제기됨.

Meta-Agent, Task-Specific Agent, Feedback-Agent로 구성된 3-Agent Loop 기반의 Self-improving 아키텍처 설계
Reward Shape에 따라 PPO+GAE, GRPO, EAW 중 최적의 RL 알고리즘을 Feedback-Agent가 자동 선택하는 동적 결정 메커니즘 도입
외부 인프라 개선을 위한 Scaffold Edit과 도메인 지식 내재화를 위한 LoRA weight update를 병행하는 Co-evolution 전략 채택
Dense step-level reward 상황에서는 PPO+GAE를, Episode-end verification 중심일 때는 GRPO를 사용하는 등 Reward 특성에 따른 알고리즘 매핑
초기 세대의 비용 효율성을 위해 Haiku 모델을 사용하고, 성능 정체 시 Sonnet 모델로 교체하여 고도화된 추론을 수행하는 계층적 모델 운영
Modal H100 인프라를 활용하여 rank 32, learning rate 4×10⁻⁵ 설정의 LoRA 업데이트 수행

실천 포인트

1. Reward 신호의 형태(Dense vs Sparse, Skewness)를 분석하여 RL 알고리즘 선택

2. GPU 비용 최적화를 위해 Scaffold-only 반복 수행 후 성능 정체 시점에서 LoRA weight update 활성화

3. Feedback-Agent의 비용과 지연 시간을 줄이기 위해 초기에는 경량 모델(Haiku)을 사용하고 임계점 도달 시 고성능 모델(Sonnet)로 스위칭

4. 정교한 Verifier 설계 여부가 전체 피드백 루프의 수렴 성능을 결정하는 핵심 변수임을 인지

태그