API Gateway 스트리밍과 Bedrock으로 구현한 실시간 AI 요약

Add Chat AI Summary Using Amazon Bedrock and HTTP Response Streaming

Marko Djakovic2026년 4월 6일5분intermediate

AI 요약

Context

방대한 채팅 메시지를 일일이 확인해야 하는 사용자 경험의 한계. 기존 AppSync 기반 채팅 인프라 변경 없이 AI 요약 기능 추가 필요. 빠른 응답 속도 체감을 위한 실시간 텍스트 스트리밍 처리 요구.

Amazon Bedrock의 ConverseStreamCommand를 활용하여 LLM 응답을 실시간 스트림으로 수신하는 구조
API Gateway의 HTTP Response Streaming 기능을 활성화하여 Lambda의 출력을 클라이언트로 즉시 전달하는 설계
aws-lambda의 streamifyResponse 래퍼를 사용하여 TypeScript 핸들러 내에서 응답 스트림을 제어하는 방식
amazon.nova-micro-v1:0 모델을 선택하여 요약 작업에 최적화된 경량화 추론 환경 구축
DB에서 최대 50개의 메시지를 페칭하여 프롬프트를 생성하는 가변적 컨텍스트 윈도우 전략
CDK의 responseTransferMode 속성을 ResponseTransferMode.STREAM으로 설정하여 인프라 수준의 스트리밍 통신 보장

서버리스 환경에서도 HTTP 스트리밍을 통해 AI 모델의 높은 추론 지연 시간을 사용자에게 체감되지 않게 만드는 UX 최적화 전략.

실천 포인트

LLM 응답 지연 최소화를 위해 API Gateway와 Lambda의 Response Streaming 설정을 결합하여 활용할 것

태그