피드로 돌아가기
Add Chat AI Summary Using Amazon Bedrock and HTTP Response Streaming
Dev.toDev.to
AI/ML

API Gateway 스트리밍과 Bedrock으로 구현한 실시간 AI 요약

Add Chat AI Summary Using Amazon Bedrock and HTTP Response Streaming

Marko Djakovic2026년 4월 6일5intermediate

Context

방대한 채팅 메시지를 일일이 확인해야 하는 사용자 경험의 한계. 기존 AppSync 기반 채팅 인프라 변경 없이 AI 요약 기능 추가 필요. 빠른 응답 속도 체감을 위한 실시간 텍스트 스트리밍 처리 요구.

Technical Solution

  • Amazon Bedrock의 ConverseStreamCommand를 활용하여 LLM 응답을 실시간 스트림으로 수신하는 구조
  • API Gateway의 HTTP Response Streaming 기능을 활성화하여 Lambda의 출력을 클라이언트로 즉시 전달하는 설계
  • aws-lambda의 streamifyResponse 래퍼를 사용하여 TypeScript 핸들러 내에서 응답 스트림을 제어하는 방식
  • amazon.nova-micro-v1:0 모델을 선택하여 요약 작업에 최적화된 경량화 추론 환경 구축
  • DB에서 최대 50개의 메시지를 페칭하여 프롬프트를 생성하는 가변적 컨텍스트 윈도우 전략
  • CDK의 responseTransferMode 속성을 ResponseTransferMode.STREAM으로 설정하여 인프라 수준의 스트리밍 통신 보장

Key Takeaway

서버리스 환경에서도 HTTP 스트리밍을 통해 AI 모델의 높은 추론 지연 시간을 사용자에게 체감되지 않게 만드는 UX 최적화 전략.


LLM 응답 지연 최소화를 위해 API Gateway와 Lambda의 Response Streaming 설정을 결합하여 활용할 것

원문 읽기