피드로 돌아가기
Dev.toAI/ML
원문 읽기
BM25 도입으로 API 비용 절감 및 응답 밀도 30-50% 향상
Why I used a 50-year-old algorithm instead of embeddings to cut Claude API token costs
AI 요약
Context
LLM의 거대 Context Window로 인한 불필요한 Token 소모와 응답의 산만함 발생. 기존의 LLM 기반 압축 방식은 추가 Inference 호출로 인해 토큰 절감 효과가 상쇄되는 구조적 모순 존재.
Technical Solution
- BM25 알고리즘 기반의 로컬 프록시 서버를 구축하여 Vector DB와 Embedding 과정 전면 제거
- 40개 Knowledge Domain 노드와 Keyword Set을 사전 정의한 후 쿼리 시 Microseconds 단위로 관련 도메인 추출
- Intent Classifier를 통한 6가지 의도 분류 및 도메인별 가중치 부여(Affinity Boost)로 컨텍스트 정밀도 향상
- Knowledge Graph의 관계 엣지를 탐색하여 연관 도메인을 자동으로 포함하는 구조 설계
- Response Enforcer를 통해 111가지 Filler Phrase 패턴을 제거하는 포스트 프로세싱 파이프라인 구현
- 로컬 프록시(Port 3179) 형태의 배포로 기존 API 호출 경로만 변경하여 즉시 적용 가능한 인터페이스 제공
실천 포인트
- LLM 입력 최적화 시 추가 Inference가 필요한 모델 기반 압축 대신 단순 Keyword/Pattern 매칭 검토 - 응답 품질 향상을 위해 System Prompt에 도메인 특화 제약 조건과 출력 형식을 강제하는 Fragment 주입 방식 적용 - LLM의 상투적인 문구를 제거하는 Post-processing 필터를 도입하여 실제 유효 정보 밀도 측정