피드로 돌아가기
Dev.toAI/ML
원문 읽기
API Gateway 스트리밍과 Bedrock으로 구현한 실시간 AI 요약
Add Chat AI Summary Using Amazon Bedrock and HTTP Response Streaming
AI 요약
Context
방대한 채팅 메시지를 일일이 확인해야 하는 사용자 경험의 한계. 기존 AppSync 기반 채팅 인프라 변경 없이 AI 요약 기능 추가 필요. 빠른 응답 속도 체감을 위한 실시간 텍스트 스트리밍 처리 요구.
Technical Solution
- Amazon Bedrock의 ConverseStreamCommand를 활용하여 LLM 응답을 실시간 스트림으로 수신하는 구조
- API Gateway의 HTTP Response Streaming 기능을 활성화하여 Lambda의 출력을 클라이언트로 즉시 전달하는 설계
- aws-lambda의 streamifyResponse 래퍼를 사용하여 TypeScript 핸들러 내에서 응답 스트림을 제어하는 방식
- amazon.nova-micro-v1:0 모델을 선택하여 요약 작업에 최적화된 경량화 추론 환경 구축
- DB에서 최대 50개의 메시지를 페칭하여 프롬프트를 생성하는 가변적 컨텍스트 윈도우 전략
- CDK의 responseTransferMode 속성을 ResponseTransferMode.STREAM으로 설정하여 인프라 수준의 스트리밍 통신 보장
Key Takeaway
서버리스 환경에서도 HTTP 스트리밍을 통해 AI 모델의 높은 추론 지연 시간을 사용자에게 체감되지 않게 만드는 UX 최적화 전략.
실천 포인트
LLM 응답 지연 최소화를 위해 API Gateway와 Lambda의 Response Streaming 설정을 결합하여 활용할 것