MoE 아키텍처 기반 30T 토큰 학습 및 Off-policy RL 안정화로 Agentic Coding 성능 극대화

Laguna XS.2 and M.1

2026년 4월 28일14분advanced

AI 요약

Context

기존 Agent가 Tool calling 기반의 제한적 인터페이스에 의존하여 복잡한 Action 구성 및 병렬 처리에 한계 노출. 소프트웨어 작성 및 실행 능력을 통한 유연한 인터페이스 확보와 Long-horizon 작업 수행이 가능한 모델 설계 필요.

Technical Solution

MoE(Mixture of Experts) 구조 채택을 통한 연산 효율성 확보 및 전체 파라미터 대비 낮은 Activated Parameter 운용
Token-in, Token-out 설계를 통한 롤아웃 생성부터 학습까지 Token ID를 유지하여 Re-tokenization으로 인한 데이터 불일치 제거
CISPO 알고리즘 변형 적용을 통한 Off-policy RL 환경에서의 학습 안정성 확보 및 Entropy Regularization 의존도 제거
Agent Client Protocol(ACP) 기반의 Agent Harness를 구축하여 모델 학습과 평가 환경을 일원화한 파이프라인 설계
6,144개의 NVIDIA Hopper GPU 클러스터를 활용한 30T 토큰 규모의 대규모 Pre-training 수행

Impact

Laguna M.1 (225B-A23B): SWE-bench Pro 46.9%, Terminal-Bench 2.0 40.7% 달성
Laguna XS.2 (33B-A3B): SWE-bench Pro 44.5%, Terminal-Bench 2.0 30.1% 달성
MoE 구조를 통한 Dense 모델 대비 추론 비용 및 연산 자원 효율성 증대

Key Takeaway

단순한 API 호출 형태의 Agent를 넘어 코드를 직접 작성하고 실행하는 능력을 갖춘 모델이 더 높은 표현력과 자율성을 가짐. 특히 RL 학습 시 데이터 신선도와 시스템 처리량 사이의 Trade-off를 해결하기 위해 의도적인 Staleness를 허용하되, 데이터 정밀도를 유지하는 파이프라인 설계가 핵심임.

실천 포인트

- LLM 기반 Agent 설계 시 Tool calling의 한계를 극복하기 위해 코드 생성 및 샌드박스 실행 환경 도입 검토 - 대규모 RL 파이프라인 구축 시 Token-in/out 구조를 통해 데이터 변형으로 인한 학습 불안정성 제거 - MoE 모델 도입 시 전체 파라미터 규모보다 Activated Parameter 수치를 기준으로 추론 성능 및 비용 예측

태그

#MoE #Long-Horizon Tasks #Off-policy RL #CISPO #Agentic Coding

원문 읽기