M1 Max 단일 기기 기반 12개 로컬 LLM Agent 협업 퀀트 시스템 구축

Show HN: SleepyQuant – a 12-agent crypto quant running on one Mac

Đỗ Hiệp2026년 4월 18일3분advanced

AI 요약

Context

Cloud Inference 비용 부담과 외부 API 의존성으로 인한 Vendor Black Box 문제를 해결하기 위한 시도. 단일 Apple Silicon 환경에서 다수의 전문화된 Agent를 효율적으로 운영하는 로컬 퍼스트 아키텍처 설계 요구.

Technical Solution

COO/Dispatcher 패턴을 통한 요청 라우팅 구조 설계로 Monolithic Agent의 컨텍스트 과부하 방지 및 역할 분리 구현
MLX 기반 Qwen 2.5 32B(기본)와 DeepSeek R1 14B(추론 전용)의 하이브리드 모델 배치를 통한 연산 효율 최적화
Inference Lock에 Priority Queue를 도입하여 자동화 태스크보다 사용자 채팅에 우선권을 부여하는 Preemption 메커니즘 적용
SQLite 기반 상태 관리와 ChromaDB를 활용한 Agent Memory 계층 구조로 일관성 있는 데이터 참조 환경 구축
Daily Drawdown -8% 및 Tight Scalp TP/SL(2.0% / -1.5%) 기반의 하드웨어 컷오프 로직을 통한 리스크 제어
실패 사례의 Root-cause 분류 및 파라미터 피드백 루프를 통한 전략 최적화 프로세스 자동화

실천 포인트

- 단일 고성능 모델보다 목적별 특화된 소형 모델의 Multi-Agent 오케스트레이션 효율성 검토 - 로컬 추론 환경에서 메모리 부족 해결을 위한 Idle 상태 기반 모델 Unload 전략 수립 - 자동화 시스템 내 사용자 인터랙션 보장을 위한 추론 큐의 우선순위 제어 설계 적용

태그

#Quantitative Trading #Local-LLM #Priority Queue #MLX #Multi-Agent-System

원문 읽기