피드로 돌아가기
Phase 2 Shipped: 5 Things I Got Wrong About Embedding-Based Routing
Dev.toDev.to
AI/ML

k-NN 기반 Local Routing 도입으로 지연시간 95% 감소 및 비용 61% 절감

Phase 2 Shipped: 5 Things I Got Wrong About Embedding-Based Routing

Wavebro2026년 6월 3일6intermediate

Context

Groq LLM API를 통한 외부 Categorizer 의존 구조로 인한 380ms의 높은 지연시간 발생. API 장애 시 시스템 가용성이 저하되는 Single Point of Failure 문제와 지속적인 추론 비용 부담을 해결하기 위해 로컬 임베딩 기반 라우팅 체계로의 전환이 필요했음.

Technical Solution

  • Groq LLM API를 multilingual-e5-large 임베딩 기반의 k-NN(k-Nearest Neighbors) 로컬 분류기로 대체하여 외부 의존성 제거
  • 단순 Category Accuracy가 아닌 최종 목적지인 Tier Accuracy를 핵심 지표로 설정하여 불필요한 분류 최적화 리소스 낭비 방지
  • 템플릿 기반 Synthetic Data의 세만틱 클러스터 부족 문제를 실제 사용자 메시지 342건 및 제약 조건이 적용된 다양성 중심의 데이터셋으로 해결
  • LLM의 일관된 분류 경계(Decision Boundary)를 그대로 학습시키기 위해 휴리스틱한 판단 대신 Label Source의 일관성을 신뢰하는 전략 채택
  • 불확실한 경계 영역에서 상위 모델로 라우팅되는 Asymmetric Distribution 특성을 활용하여 사용자 경험 저하를 방지하는 안전 장치 확보
  • 모델의 기하학적 구조와 일치하지 않는 인위적인 분류 체계를 통합하여 Tier Routing 정확도를 79.9%에서 82.4%로 향상

- 분류 모델의 성능 지표가 비즈니스 목표(최종 티어 할당)와 일치하는지 검토 - Synthetic Data 생성 시 단순 치환이 아닌 도메인, 언어, 길이의 다양성 제약 조건을 명시적으로 적용 - k-NN 풀 구성 시 유사 중복 임베딩(Near-duplicates)이 모델의 암기 현상을 유발하지 않는지 분석 - 시스템 실패 비용이 비대칭적일 경우(과소 할당 vs 과잉 할당), 의도적으로 보수적인 라우팅 방향을 설정

원문 읽기