MiniMax M2 팀이 Interleaved Thinking과 perturbation 기반 데이터 파이프라인을 도입해 벤치마크 성능과 실제 환경 일반화를 동시에 달성

Aligning to What? Rethinking Agent Generalization in MiniMax M2

2025년 10월 30일9분intermediate

AI 요약

Context

LLM 에이전트는 벤치마크에서 높은 성능을 보이지만 다른 프레임워크나 실제 환경에서는 성능이 급격히 떨어지는 문제가 발생했다. 초기에는 단순히 도구(tool) 개수를 늘리는 방식으로 일반화를 시도했으나, 스캐폴딩 프레임워크 변경 같은 작은 환경 변화에도 성능이 급락하는 현상이 반복되었다.

Technical Solution

Interleaved Thinking 도입: 에이전트의 내부 사고 과정을 작업 시작 시점이 아닌 임의의 시점에서 발생하도록 설계하여 장시간 맥락 유지 및 외부 perturbation 적응 능력 강화
Perturbation 기반 전체 궤적(full-trajectory) 일반화: Tool Info, System Prompt, User Prompt, Environment, Tool Responses 등 에이전트 운영 공간 전체에서 변수들의 변화에 대한 강건성을 학습하는 데이터 파이프라인 구축
세션 히스토리 완전 보존: 모델 성능 최적화를 위해 사고 단계를 포함한 전체 세션 히스토리를 유지하도록 사용자 지침 제공
최소 도구 집합으로 기준 구축: Python 인터프리터, 검색 엔진, 브라우저 3개 도구로 기본 tool-calling 능력의 기준선 설정 후 점진적 확장

Impact

아티클에 정량적 성능 수치(벤치마크 점수, 성능 향상도 등)가 명시되어 있지 않으며, 정성적 결과로만 "obscure 스캐폴딩 프레임워크에서 예상을 초과하는 성능" 및 "tool-calling과 instruction-following 능력의 우수한 일반화" 보고됨.

Key Takeaway

에이전트 일반화는 새로운 도구 적응 문제가 아니라 모든 운영 변수의 예측 불가능한 변화에 대한 강건성 문제로 재정의되어야 한다. 이를 해결하려면 데이터 파이프라인 설계 단계에서부터 perturbation 전체 공간을 체계적으로 포함해야 한다.

실천 포인트

에이전트 기반 AI 서비스를 구축하는 팀은 벤치마크 최적화와 실제 환경 일반화를 구분된 목표로 설정하고, 데이터 수집 단계에서 도구 다양화뿐 아니라 시스템 프롬프트, 사용자 프롬프트, 환경 변수, 도구 응답 등 전체 변수 공간에서 perturbation을 의도적으로 주입하여 학습 데이터를 구성하면, 다양한 프레임워크와 설정에서도 안정적인 성능을 유지할 수 있다.

태그

#Agent #Perturbation #LLM #Interleaved Thinking #Generalization

원문 읽기