Qwen2.5 기반 Multi-Engine 구조로 구현한 Local Self-Evolving AI 시스템

Tian AI Architecture Deep Dive: Building a Multi-Engine AI System

Jeffrey.Feillp2026년 4월 25일19분advanced

AI 요약

Context

제한된 리소스의 로컬 환경에서 복잡한 추론과 시스템 자가 진화를 동시에 달성해야 하는 제약 존재. 단일 LLM 호출 방식의 낮은 추론 정밀도와 마이크로서비스 구조의 높은 오버헤드 문제를 해결하고자 함.

Technical Solution

쿼리 복잡도에 따라 Fast, CoT, Deep 세 가지 전략을 선택하는 Three-Layer Reasoning Engine 설계
RPC 기반 통신 대신 In-process Python function call을 채택하여 제약된 디바이스 내 Latency 최소화
AST Analysis와 Auto-Patch 로직을 결합하여 코드 레벨의 성능을 스스로 개선하는 Self-Evolution System 구축
LRU Cache에 SHA256 Context Hash를 결합하여 동일 맥락 쿼리에 대한 중복 연산 제거
LLMManager를 통한 프로세스 Lifecycle 관리로 로컬 환경의 안정적인 Auto-Restart 및 Health Check 보장
llama.cpp 백엔드와 Qwen2.5-1.5B GGUF 양자화 모델을 활용한 메모리 효율 최적화

실천 포인트

- 로컬 환경의 Latency가 병목일 경우 RPC 대신 In-process 통신 검토 - 동일 컨텍스트의 반복 요청을 줄이기 위해 Context Hash 기반의 캐싱 전략 도입 - 모델의 Temperature 값을 추론 모드(Deterministic vs Creative)에 따라 동적으로 조절하여 결과 일관성 확보

태그

#AST Analysis #Quantization #Self-Evolving AI #Multi-Engine Architecture #RAG

원문 읽기