17 天 / 247 views / 0 sales — 我把 $9 PDF 砍掉，25 分鐘 spike 出新方向

BM25+Bigram 기반 RAG 최적화로 응답 속도 4.4s 달성 및 배포 단순화

foxck0160772026년 5월 23일5분intermediate

AI 요약

Context

PDF 기반 정보 제공 서비스의 낮은 전환율과 사용자 경험의 부재를 확인하여 daily-use workflow 형태의 AI Bot으로 피벗. 기존의 복잡한 7축 스코프 설계를 최소 기능 단위인 3축(데이터 소스, 통신 채널, AI Key) 구조로 축소하여 제품 시장 적합성을 재설계함.

Technical Solution

무거운 Embedding Stack 대신 BM25와 Bigram Retrieval을 적용하여 v1 단계의 정밀도 100% 확보 및 의존성 제거
LangChain, ChromaDB 등 무거운 프레임워크를 배제하고 SQLite 및 sqlite-vec 기반의 경량 Ingest Pipeline 설계
Python Runtime 의존성을 제거한 Binary 기반 Installer 구조를 채택하여 사용자 설치 진입 장벽 최소화
Out-of-scope 질의에 대해 LLM 호출 전 Short-circuit 로직을 구현하여 환각 현상 방지 및 토큰 비용 절감
LINE Webhook의 30s Timeout 제한을 고려하여 End-to-End 응답 시간을 2.8s~4.4s 범위로 최적화

Impact

쿼리 응답 시간: 2.8s ~ 4.4s 달성
Retrieval 정밀도: Mock Chunk 기준 100% 정확도 검증
의존성 제거: 무거운 Embedding Stack 및 Python 환경 제거를 통한 Binary 경량화

실천 포인트

- 초기 MVP 단계에서 복잡한 Embedding 모델보다 BM25 기반의 키워드 검색으로 충분한지 우선 검증할 것 - 사용자 설치 경험 최적화를 위해 런타임 의존성을 제거한 단일 Binary 배포 방식 검토 - LLM 호출 전 데이터 존재 여부를 판단하는 Short-circuit 메커니즘으로 환각 제어 및 비용 최적화

태그

#BM25 #Binary Distribution #Retrieval #RAG #sqlite-vec

원문 읽기