Dropbox가 지식 그래프, MCP, DSPy를 조합하여 엔터프라이즈 AI 검색 플랫폼 Dash 구축

Engineering VP Josh Clemm on how we use knowledge graphs, MCP, and DSPy in Dash

Eric Wang,Dmitriy Meyerzon,Dmitriy Meyerzon,Hicham Badri,Appu Shaji,Craig Wilhite,Josh Clemm2026년 1월 28일12분intermediate

AI 요약

Context

사용자들이 50개 이상의 탭과 SaaS 애플리케이션 계정을 관리하면서 업무 콘텐츠 검색이 어려워졌다. 기존 LLM은 기업의 폐쇄적 환경에 저장된 proprietary 콘텐츠에 접근할 수 없어 업무 지원이 불가능했다.

Technical Solution

커넥터 기반 다중 데이터 소스 통합: 제3자 애플리케이션의 서로 다른 API, 레이트 제한, ACL 시스템을 처리하는 커스텀 크롤러 개발
멀티모달 콘텐츠 이해: 문서 정규화(마크다운 변환), CLIP 기반 이미지 분석, 오디오 전사, 비디오의 multimodal 장면 추출 및 임베딩 생성
지식 그래프 구축: 회의와 관련 문서, 인물, 전사본, 노트를 cross-app 관계로 모델링하여 context 강화
하이브리드 인덱싱 전략: BM25 lexical 인덱스와 벡터 스토어의 dense 벡터 조합으로 hybrid retrieval 구현
다단계 랭킹 및 개인화: 검색 결과에 여러 랭킹 pass를 적용하여 사용자별 personalization과 ACL 적용
MCP 기반 tool 선택 제한: super tools 개념 도입, 도구 사용 최소화, 서브에이전트 활용으로 context window 보호
LLM as Judge 활용: 초기 프롬프트 최적화 후 정확도 검증을 통한 반복적 개선
DSPy를 통한 프롬프트 최적화: 대규모 운영 환경에서 prompt optimizer 적용

Impact

아티클에 정량적 수치가 명시되지 않았다.

Key Takeaway

Indexed retrieval은 federated retrieval보다 초기 구현이 복잡하지만, 규모에서 BM25 같은 효율적인 기반 기술과 LLM judge를 통한 점진적 최적화로 정확도와 성능을 동시에 확보할 수 있다.

실천 포인트

enterprise AI 검색 제품을 구축하는 팀은 초기 단계에서 MCP와 real-time retrieval에 집중한 후, 고객 사용 패턴을 분석해가며 knowledge graph 구축, multimodal content 처리, LLM judge 기반 랭킹 최적화를 단계적으로 도입하면 초기 복잡도를 낮추면서 장기적 확장성을 확보할 수 있다.

태그

#MCP #RAG #DSPy #Knowledge Graph #Vector Search

원문 읽기