4개 랩의 Small Model 기반 Heterogeneous Multi-Agent 시스템 구축

Five labs, five minds: building a multi-model finance drama on small models

2026년 6월 6일5분advanced

AI 요약

Context

단일 모델 기반의 에이전트 환경은 행동 패턴의 유사성으로 인해 시장 시뮬레이션의 다양성 확보에 한계가 존재함. 특히 소형 모델 사용 시 Prompt Inflation으로 인한 컨텍스트 윈도우 포화 및 정보 유출 방지 설계가 필수적인 상황임.

Technical Solution

모델별 데이터셋 및 포스트 트레이닝 차이를 활용한 Heterogeneous Model 구성으로 에이전트 간 개별적 행동 특성 구현
vLLM Serving Layer의 CUDA devel 이미지 기반 통일 및 MXFP4 Quantization 적용을 통한 L4 GPU 자원 최적화
다양한 Tokenizer 및 출력 포맷 차이로 인한 런타임 에러 방지를 위해 Tolerant JSON Parse-and-Repair 레이어 도입
정보 비대칭성 유지를 위해 Hidden Flag를 Prompt 외부의 Player Ledger에서 관리하는 데이터 흐름 기반의 Firewall 설계
정수형 Sentiment 기반의 Bounded Summary 방식을 도입하여 무제한으로 증가하는 History Prompt의 메모리 부하 해결
Deterministic Logic과 LLM Nudging을 결합하여 에이전트의 호감도 및 적대감에 따른 행동 결정론적 제어 구현

실천 포인트

- LLM 에이전트에게 비밀 정보를 전달할 때 Prompt 지시문이 아닌 데이터 흐름 단계에서 물리적으로 분리했는지 검토 - 대화 기록의 무제한 누적으로 인한 성능 저하를 막기 위해 요약된 상태 값(State) 기반의 Bounded Summary 적용 - 서로 다른 모델을 혼합 사용할 경우 모델별 출력 편차를 흡수할 수 있는 유연한 Parse-and-Repair 레이어 구축 - 모델의 행동 일관성을 확보하기 위해 LLM의 생성 능력과 결정론적 코드(Deterministic Code)의 하이브리드 구조 설계

태그

#Quantization #Prompt Engineering #vLLM #Small Language Models #Multi-Agent-System

원문 읽기