피드로 돌아가기
Tian AI Architecture Deep Dive: Building a Multi-Engine AI System
Dev.toDev.to
AI/ML

Qwen2.5 기반 Multi-Engine 구조로 구현한 Local Self-Evolving AI 시스템

Tian AI Architecture Deep Dive: Building a Multi-Engine AI System

Jeffrey.Feillp2026년 4월 25일19advanced

Context

제한된 리소스의 로컬 환경에서 복잡한 추론과 시스템 자가 진화를 동시에 달성해야 하는 제약 존재. 단일 LLM 호출 방식의 낮은 추론 정밀도와 마이크로서비스 구조의 높은 오버헤드 문제를 해결하고자 함.

Technical Solution

  • 쿼리 복잡도에 따라 Fast, CoT, Deep 세 가지 전략을 선택하는 Three-Layer Reasoning Engine 설계
  • RPC 기반 통신 대신 In-process Python function call을 채택하여 제약된 디바이스 내 Latency 최소화
  • AST Analysis와 Auto-Patch 로직을 결합하여 코드 레벨의 성능을 스스로 개선하는 Self-Evolution System 구축
  • LRU Cache에 SHA256 Context Hash를 결합하여 동일 맥락 쿼리에 대한 중복 연산 제거
  • LLMManager를 통한 프로세스 Lifecycle 관리로 로컬 환경의 안정적인 Auto-Restart 및 Health Check 보장
  • llama.cpp 백엔드와 Qwen2.5-1.5B GGUF 양자화 모델을 활용한 메모리 효율 최적화

- 로컬 환경의 Latency가 병목일 경우 RPC 대신 In-process 통신 검토 - 동일 컨텍스트의 반복 요청을 줄이기 위해 Context Hash 기반의 캐싱 전략 도입 - 모델의 Temperature 값을 추론 모드(Deterministic vs Creative)에 따라 동적으로 조절하여 결과 일관성 확보

원문 읽기