피드로 돌아가기
Engineering VP Josh Clemm on how we use knowledge graphs, MCP, and DSPy in Dash
Dropbox TechDropbox Tech
Backend

Engineering VP Josh Clemm on how we use knowledge graphs, MCP, and DSPy in Dash

Dropbox가 지식 그래프, MCP, DSPy를 조합하여 엔터프라이즈 AI 검색 플랫폼 Dash 구축

Eric Wang,Dmitriy Meyerzon,Dmitriy Meyerzon,Hicham Badri,Appu Shaji,Craig Wilhite,Josh Clemm2026년 1월 28일12intermediate

Context

사용자들이 50개 이상의 탭과 SaaS 애플리케이션 계정을 관리하면서 업무 콘텐츠 검색이 어려워졌다. 기존 LLM은 기업의 폐쇄적 환경에 저장된 proprietary 콘텐츠에 접근할 수 없어 업무 지원이 불가능했다.

Technical Solution

  • 커넥터 기반 다중 데이터 소스 통합: 제3자 애플리케이션의 서로 다른 API, 레이트 제한, ACL 시스템을 처리하는 커스텀 크롤러 개발
  • 멀티모달 콘텐츠 이해: 문서 정규화(마크다운 변환), CLIP 기반 이미지 분석, 오디오 전사, 비디오의 multimodal 장면 추출 및 임베딩 생성
  • 지식 그래프 구축: 회의와 관련 문서, 인물, 전사본, 노트를 cross-app 관계로 모델링하여 context 강화
  • 하이브리드 인덱싱 전략: BM25 lexical 인덱스와 벡터 스토어의 dense 벡터 조합으로 hybrid retrieval 구현
  • 다단계 랭킹 및 개인화: 검색 결과에 여러 랭킹 pass를 적용하여 사용자별 personalization과 ACL 적용
  • MCP 기반 tool 선택 제한: super tools 개념 도입, 도구 사용 최소화, 서브에이전트 활용으로 context window 보호
  • LLM as Judge 활용: 초기 프롬프트 최적화 후 정확도 검증을 통한 반복적 개선
  • DSPy를 통한 프롬프트 최적화: 대규모 운영 환경에서 prompt optimizer 적용

Impact

아티클에 정량적 수치가 명시되지 않았다.

Key Takeaway

Indexed retrieval은 federated retrieval보다 초기 구현이 복잡하지만, 규모에서 BM25 같은 효율적인 기반 기술과 LLM judge를 통한 점진적 최적화로 정확도와 성능을 동시에 확보할 수 있다.


enterprise AI 검색 제품을 구축하는 팀은 초기 단계에서 MCP와 real-time retrieval에 집중한 후, 고객 사용 패턴을 분석해가며 knowledge graph 구축, multimodal content 처리, LLM judge 기반 랭킹 최적화를 단계적으로 도입하면 초기 복잡도를 낮추면서 장기적 확장성을 확보할 수 있다.

원문 읽기