피드로 돌아가기
Dev.toAI/ML
원문 읽기
비정형 멀티모달 데이터를 정형 구조로 변환하는 전처리 전용 Processing Layer 구축
AWS Data & AI Stories #02: Amazon Bedrock Data Automation
AI 요약
Context
문서, 이미지, 오디오, 비디오 등 파편화된 비정형 데이터로 인한 AI 모델의 입력 품질 저하 문제 발생. 개별 포맷별 추출 파이프라인 구축에 따른 관리 복잡도 증가 및 데이터 정제 단계의 병목 현상 존재.
Technical Solution
- 비정형 멀티모달 데이터를 정형 출력물로 변환하여 하위 AI 워크플로우에 공급하는 전용 Processing Layer 설계
- S3 데이터 적재 후 Knowledge Bases 및 Vector Store 진입 전 단계에 배치하여 데이터 일관성 확보
- Project 설정을 통한 처리 구성의 컨테이너화 및 Async API 기반의 비동기 처리 구조 채택
- Blueprint 설정을 통해 도메인 특화 필드 추출 로직을 정의함으로써 비즈니스 요구사항에 맞는 Custom Output 생성
- Standard Output으로 빠른 가치 검증 후 Blueprint 기반의 Custom Output으로 전환하는 점진적 고도화 전략 적용
- Data Automation Library의 Custom Vocabulary 도입으로 도메인 전용 용어 인식률 개선
실천 포인트
1. 모델 선정 전 필요한 최종 출력 필드와 이를 소비할 시스템 정의
2. Standard Output으로 유스케이스 검증 후 Blueprint를 통한 정밀 추출 최적화
3. 도메인 특화 용어가 많은 경우 Custom Vocabulary 적용 여부 검토
4. Blueprint 프롬프트 입력 소스의 신뢰성 확보를 통한 보안 설계 적용