LLM 추론을 Hot Path에서 분리한 실시간 추천 시스템 설계

Building an AI Agent That Responds to Real-Time Events with AWS Bedrock, Kinesis, DynamoDB, and S3

Jubin Soni2026년 6월 28일10분intermediate

AI 요약

Context

기존 배치 기반 추천 시스템의 데이터 갱신 지연으로 인한 실시간 사용자 경험 저하 발생. 사용자 행동 변화가 추천 결과에 즉각 반영되지 않는 아키텍처적 한계 직면.

Kinesis Data Streams를 통한 사용자 이벤트의 실시간 수집 및 유저 ID 기반 Partition Key 설정을 통한 이벤트 순서 보장
Lambda Processor를 통한 DynamoDB 프로필 데이터 보강 및 Bedrock Agent 호출로 추론 컨텍스트 최적화
Bedrock의 LLM 추론 결과를 DynamoDB Cache에 비동기적으로 기록하여 API 응답 경로와 추론 경로를 완전히 분리
S3와 Kinesis Firehose를 연동하여 원본 데이터 아카이빙 및 모델 재학습을 위한 데이터 파이프라인 구축
DynamoDB TTL 설정을 통한 캐시 만료 관리 및 신규 사용자를 위한 Popularity-based Fallback 전략 적용

실천 포인트

1. LLM 추론 결과를 서빙 경로에 직접 배치하지 않고 Fast Cache(Redis, DynamoDB)를 통해 제공하는가

2. 이벤트 스트림 설계 시 데이터 정렬이 필요한 경우 적절한 Partition Key를 설정했는가

3. LLM 응답 지연이나 장애 상황을 대비한 Fallback 메커니즘(예: 인기 항목 추천)이 존재하는가

4. 데이터 보관 비용 절감을 위해 Raw Data의 Hot/Cold Storage 분리 전략을 적용했는가

태그