피드로 돌아가기
17 天 / 247 views / 0 sales — 我把 $9 PDF 砍掉,25 分鐘 spike 出新方向
Dev.toDev.to
AI/ML

17 天 / 247 views / 0 sales — 我把 $9 PDF 砍掉,25 分鐘 spike 出新方向

BM25+Bigram 기반 RAG 최적화로 응답 속도 4.4s 달성 및 배포 단순화

foxck0160772026년 5월 23일5intermediate

Context

PDF 기반 정보 제공 서비스의 낮은 전환율과 사용자 경험의 부재를 확인하여 daily-use workflow 형태의 AI Bot으로 피벗. 기존의 복잡한 7축 스코프 설계를 최소 기능 단위인 3축(데이터 소스, 통신 채널, AI Key) 구조로 축소하여 제품 시장 적합성을 재설계함.

Technical Solution

  • 무거운 Embedding Stack 대신 BM25와 Bigram Retrieval을 적용하여 v1 단계의 정밀도 100% 확보 및 의존성 제거
  • LangChain, ChromaDB 등 무거운 프레임워크를 배제하고 SQLite 및 sqlite-vec 기반의 경량 Ingest Pipeline 설계
  • Python Runtime 의존성을 제거한 Binary 기반 Installer 구조를 채택하여 사용자 설치 진입 장벽 최소화
  • Out-of-scope 질의에 대해 LLM 호출 전 Short-circuit 로직을 구현하여 환각 현상 방지 및 토큰 비용 절감
  • LINE Webhook의 30s Timeout 제한을 고려하여 End-to-End 응답 시간을 2.8s~4.4s 범위로 최적화

Impact

  • 쿼리 응답 시간: 2.8s ~ 4.4s 달성
  • Retrieval 정밀도: Mock Chunk 기준 100% 정확도 검증
  • 의존성 제거: 무거운 Embedding Stack 및 Python 환경 제거를 통한 Binary 경량화

- 초기 MVP 단계에서 복잡한 Embedding 모델보다 BM25 기반의 키워드 검색으로 충분한지 우선 검증할 것 - 사용자 설치 경험 최적화를 위해 런타임 의존성을 제거한 단일 Binary 배포 방식 검토 - LLM 호출 전 데이터 존재 여부를 판단하는 Short-circuit 메커니즘으로 환각 제어 및 비용 최적화

원문 읽기