피드로 돌아가기
Dev.toAI/ML
원문 읽기

Zero-Token Semantic Routing으로 구현한 5ms 미만 지연시간의 IT Agent
How I Built AegisDesk: A Zero-Token Semantic IT Agent with <5ms Latency
AI 요약
Context
LLM 기반 Intent Routing 시 발생하는 800~2,000ms의 높은 Latency와 API 비용 지출 문제 분석. LLM의 Hallucination으로 인한 잘못된 Tool Call 및 파이프라인 Crash 위험성 식별.
Technical Solution
- BAAI/bge-small-en-v1.5 모델과 ONNX 기반 fastembed를 활용한 로컬 쿼리 임베딩 처리
- Cosine Similarity 기반의 오프라인 IT Intent Vocabulary 비교를 통한 LLM-less Deterministic Routing 설계
- 신뢰도 0.55 미만 쿼리에 대해 Read-only RAG Agent로 Fallback 처리하는 Safety Net 구축
- SQLite Graph Memory를 활용하여 과거 티켓 데이터를 라우팅 코퍼스에 동적으로 반영하는 Few-Shot Learning 구현
- shell=False 설정 및 Regex 기반 입력값 스크러빙을 통한 RCE(Remote Code Execution) 방어
- DNS Pre-flight 체크를 통한 Loopback 및 Metadata 서브넷 접근 차단으로 SSRF 공격 방지
실천 포인트
1. 지연시간이 핵심인 서비스에서 LLM 기반 라우팅 대신 로컬 Embedding 모델과 Vector Similarity 검토
2. 비결정론적 AI 도구 실행 전 Human-in-the-Loop(HITL) 인터럽트 단계 설계
3. 외부 입력값이 OS 커맨드로 전달될 경우 Regex 화이트리스트 필터링 및 shell=False 강제 적용
4. 네트워크 요청 도구 구현 시 DNS Resolution 단계에서 내부망/루프백 IP 차단 로직 포함