피드로 돌아가기
Dev.toAI/ML
원문 읽기
Embedding 모델 최적화를 통한 Retrieval 정확도 88% 달성 및 비용-성능 균형 설계
RAG Retrieval Quality: Are Large Models Really Necessary?
AI 요약
Context
단순 Keyword Matching 기반의 검색 엔진 사용으로 인한 복잡한 쿼리 처리 한계 발생. 특히 ERP 시스템 내 유사 명칭 장비 간의 Semantic Similarity 오인식으로 인한 데이터 추출 오류와 운영 리스크 증대.
Technical Solution
- 복잡한 자연어 쿼리의 의도 파악을 위한 Large Embedding Model 도입을 통한 Semantic Search 구현
- 다중 정보가 포함된 복합 쿼리를 개별 정보 단위로 분리하여 검색 후 결합하는 Query Parsing 로직 적용
- Vector Database 통합을 통한 단순 텍스트 매칭에서 의미론적 유사도 기반의 데이터 추출 구조로 전환
- 모델 크기 증가에 따른 Latency 상승 문제를 해결하기 위해 Task 정의 및 Dataset 분석 기반의 Right-sized 모델 선정 전략 수립
- 도메인 특화 데이터셋을 활용한 Small Model Fine-tuning을 통해 Large Model 수준의 Retrieval Quality 확보 시도
실천 포인트
- 복합 쿼리 처리 시 단순 검색 대신 Query Decomposition 과정이 포함되었는지 확인 - Embedding 모델 변경 전/후의 Latency 변화와 Retrieval Recall 수치를 정량적으로 비교 - 일반 범용 모델 대신 도메인 특화 데이터셋으로 Fine-tuning된 소형 모델의 가능성 검토 - 사용자 경험(UX) 허용 범위 내의 최대 Latency 임계치를 설정하여 모델 사이즈 결정