Zero-Token Semantic Routing으로 구현한 5ms 미만 지연시간의 IT Agent

How I Built AegisDesk: A Zero-Token Semantic IT Agent with <5ms Latency

Sitanshu Kumar2026년 5월 22일3분advanced

AI 요약

Context

LLM 기반 Intent Routing 시 발생하는 800~2,000ms의 높은 Latency와 API 비용 지출 문제 분석. LLM의 Hallucination으로 인한 잘못된 Tool Call 및 파이프라인 Crash 위험성 식별.

BAAI/bge-small-en-v1.5 모델과 ONNX 기반 fastembed를 활용한 로컬 쿼리 임베딩 처리
Cosine Similarity 기반의 오프라인 IT Intent Vocabulary 비교를 통한 LLM-less Deterministic Routing 설계
신뢰도 0.55 미만 쿼리에 대해 Read-only RAG Agent로 Fallback 처리하는 Safety Net 구축
SQLite Graph Memory를 활용하여 과거 티켓 데이터를 라우팅 코퍼스에 동적으로 반영하는 Few-Shot Learning 구현
shell=False 설정 및 Regex 기반 입력값 스크러빙을 통한 RCE(Remote Code Execution) 방어
DNS Pre-flight 체크를 통한 Loopback 및 Metadata 서브넷 접근 차단으로 SSRF 공격 방지

실천 포인트

1. 지연시간이 핵심인 서비스에서 LLM 기반 라우팅 대신 로컬 Embedding 모델과 Vector Similarity 검토

2. 비결정론적 AI 도구 실행 전 Human-in-the-Loop(HITL) 인터럽트 단계 설계

3. 외부 입력값이 OS 커맨드로 전달될 경우 Regex 화이트리스트 필터링 및 shell=False 강제 적용

4. 네트워크 요청 도구 구현 시 DNS Resolution 단계에서 내부망/루프백 IP 차단 로직 포함

태그