피드로 돌아가기
InfoQAI/ML
원문 읽기
7억 장 이미지와 40개국 리뷰를 통합한 Topic 기반 Multimodal 시스템 구축
Agoda Builds Multimodal Content System to Bridge Images and Reviews in Travel Discovery
AI 요약
Context
이미지와 리뷰의 독립적 처리 파이프라인으로 인한 데이터 간 상관관계 분석 부재. 서로 다른 Ranking 및 Retrieval 로직 사용에 따른 호텔 특성 해석의 불일치 발생.
Technical Solution
- Shared Topic Taxonomy 도입을 통한 시각적 신호와 텍스트 신호의 공통 표현 공간 매핑
- 이미지 분류 모델의 Semantic Label과 NLP 파이프라인의 키워드/감성 분석 결과를 Canonical Topic으로 정규화
- Runtime Join 부하 제거를 위해 오프라인 단계에서 Multimodal Package를 사전 계산하는 Pre-aggregation 전략 채택
- PySpark 및 Kubeflow 기반의 분산 처리 워크플로우를 통한 대규모 데이터 인제스천 및 Enrich 처리
- 저지연 서빙을 위해 처리된 Topic Artifact를 Couchbase 기반의 Serving Layer에 저장
- 40개 이상의 다국어 콘텐츠 일관성을 보장하는 Multilingual Normalization Layer 구축
실천 포인트
1. 서로 다른 데이터 소스를 통합할 때 공통의 Taxonomy 정의 여부 검토
2. 실시간 조인 부하를 줄이기 위해 Offline Pre-computation 및 Serving Layer 분리 적용 고려
3. 다국어 환경에서 의미론적 동등성을 보장하기 위한 Normalization 단계 설계