피드로 돌아가기
AI Enrichment Pipeline: From Sample Classification to 100K-File Metadata Search with Bedrock and OpenSearch NextGen
Dev.toDev.to
AI/ML

Bedrock-OpenSearch 기반 100K 파일 AI 메타데이터 검색 파이프라인 구축

AI Enrichment Pipeline: From Sample Classification to 100K-File Metadata Search with Bedrock and OpenSearch NextGen

Yoshiki Fujiwara(藤原 善基)@AWS Community Builder2026년 6월 8일14intermediate

Context

단순 파일명과 크기 중심의 기본 메타데이터로는 비정형 데이터의 내용 기반 검색에 한계 발생. 대규모 파일 집합에서 의미론적 검색과 자동 분류를 가능케 하는 AI Enrichment 구조 필요.

Technical Solution

  • Claude 3 Haiku를 활용한 이미지 및 문서의 자동 Classification 및 Summary 생성 구조 설계
  • Titan Embeddings V2를 통해 텍스트 정보를 1024차원 벡터로 변환하여 유사도 검색 기반 마련
  • S3 Tables (Iceberg)를 활용한 메타데이터 저장으로 Athena SQL 기반의 고속 쿼리 성능 확보
  • OpenSearch Serverless NextGen의 kNN Vector Search를 통한 Scale-to-zero 기반의 효율적 검색 엔진 구현
  • Iceberg의 Append-only 특성에 따른 중복 데이터 발생을 ROW_NUMBER() 윈도우 함수로 해결하는 Dedup 쿼리 패턴 적용
  • 1024차원 임베딩 선택을 통해 스토리지 비용(파일당 4KB)과 검색 정확도 간의 최적 Balance 달성

- 임베딩 차원 선택 시 Titan Embeddings V2처럼 차원 수에 관계없이 비용이 동일한 모델인지 확인 - Iceberg 등 Append-only 저장소 사용 시 최신 레코드만 추출하는 Deduplication 쿼리 전략 수립 - AI 분류 모델 도입 전 도메인 특화 데이터셋을 통한 nDCG@5, MRR 등 검색 관련 정량 지표 검증

원문 읽기