2 Core CPU와 3.6GB RAM으로 구현한 9개 AI Agent 오케스트레이션

We Run 9 AI Agents on 2 CPU Cores and 3.6GB RAM: The Engineering Memoir

Suzanne Mok2026년 6월 27일10분intermediate

AI 요약

Context

GPU 및 고사양 인프라 없이 극소형 Ubuntu 서버 환경에서 다중 AI Agent를 운용해야 하는 제약 발생. LLM 추론 부하를 외부 API로 완전히 분리하여 로컬 자원을 오케스트레이션 레이어로만 활용하는 초경량 구조 설계.

DeepSeek API 계층화를 통한 비용 및 성능 최적화: 전략 업무는 Pro 모델, 운영 업무는 Flash 모델(비용 30배 절감)로 분리 배치
Identity as Code 방식의 에이전트 정의: SOUL.md, AGENTS.md, IDENTITY.md 파일을 통한 런타임 설정과 시스템 프롬프트의 일원화
File System 기반의 Message Broker 구현: Kafka 등 복잡한 메시지 큐 대신 공유 파일 시스템을 통한 상태 업데이트 및 통신 구조 설계
Dual-Layer Scheduling 도입: Cron을 이용한 정밀 시간 제어와 Heartbeat polling을 통한 상태 기반 에스컬레이션 메커니즘 구축
Frame-work 혼용 구조 수용: Node.js 기반 OpenClaw와 Python 기반 Hermes의 공존을 위해 파일 시스템 인터페이스로 상호 운용성 확보

실천 포인트

1. Agent의 페르소나와 권한을 기계 읽기 가능한 파일(Markdown)로 정의하여 관리하는가?

2. 작업의 중요도와 빈도에 따라 LLM 모델(Pro vs Flash)을 적절히 분리하여 비용을 최적화했는가?

3. 오버엔지니어링을 배제하고 현재 규모에 적합한 최소한의 통신 매체(예: Shared File)를 선택했는가?

태그