피드로 돌아가기
Build a Conversational AI Agent on Harper in 5 Minutes
Dev.toDev.to
AI/ML

DB·Vector·Cache 통합 런타임으로 구축 비용 $0.00 달성

Build a Conversational AI Agent on Harper in 5 Minutes

Stephen Goldberg2026년 4월 3일4intermediate

Context

AI 에이전트 구축을 위해 DB, Vector Store, Cache, API 서버 등 다수 서비스의 개별 설정이 필요함. 여러 서비스의 자격 증명 관리와 배포 파이프라인 구축에 과도한 공수가 소요되는 구조.

Technical Solution

  • Database, Vector Index, Cache, API 서버를 단일 프로세스로 통합한 Harper unified runtime 채택
  • @indexed(type: "HNSW", distance: "cosine") 설정을 통해 스키마 정의만으로 Vector Search 기능 구현
  • 텍스트 일치 확인 후 HNSW 인덱스 기반의 코사인 유사도(0.88 이상)를 측정하는 2단계 Semantic Cache 설계
  • llama.cpp 기반 bge-small-en-v1.5 모델을 Node.js 프로세스 내부에 로컬 배치하여 Embedding 비용 제거
  • 별도의 프레임워크 없이 JavaScript Resource 클래스를 통해 API 엔드포인트를 직접 처리하는 인-프로세스 로직 구현
  • Docker나 Kubernetes 없이 단일 명령어로 글로벌 배포가 가능한 Harper Fabric 환경 활용

Impact

  • Semantic Cache 적중 시 Latency 5.2s에서 0.03s로 단축
  • LLM 호출 비용 $0.0098에서 $0.00으로 절감
  • 캐시 응답 속도 50ms 미만 달성

Key Takeaway

인프라 파편화를 최소화하고 데이터 저장소와 검색 엔진을 런타임 수준에서 통합함으로써 AI 애플리케이션의 복잡도와 운영 비용을 획기적으로 낮춘 사례.


인프라 관리 공수를 줄여야 하는 초기 AI 프로토타이핑 단계에서 통합 런타임 및 로컬 Embedding 모델 도입을 검토할 것

원문 읽기