피드로 돌아가기
Dev.toBackend
원문 읽기
AWS의 Step Functions, Bedrock, CloudFront를 활용해 AI 응답을 사전 생성 후 엣지에 캐싱해 15ms 응답 시간 달성
The 15-Millisecond AI: Building "Pre-Cognitive" Edge Caching on AWS
AI 요약
Context
Generative AI 기능을 동기식으로 처리할 경우 사용자가 10초 이상 대기해야 하는 문제가 발생했다. 기존 접근법인 토큰 스트리밍이나 경량 모델 전환은 근본적인 지연 시간 해결책이 아니었다.
Technical Solution
- 사용자 로그인 시점에 EventBridge 이벤트 발생: 백그라운드 작업으로 AI 응답 생성 트리거
- Step Functions으로 비동기 워크플로우 조율: 메인 API 차단 없이 병렬로 3개의 추론 작업 실행
- Lambda 함수로 사용자 상태 분석 후 Claude 3 Haiku를 통해 예측 가능한 요청 3가지에 대해 응답 사전 생성
- 생성된 응답을 CloudFront KeyValueStore에 UserID_ActionID 키로 저장: 전역 분산 데이터스토어에 엣지 캐싱
- Lambda@Edge로 요청 인터셉트: CloudFront KeyValueStore에서 사전 생성 응답 조회 후 즉시 반환, 예측 불가 요청은 백엔드로 폴백
Impact
사용자가 버튼 클릭 시 생성된 AI 응답 로딩 시간이 15ms로 단축 (기존 8~12초 대비).
Key Takeaway
Generative AI 애플리케이션에서 지연 시간 문제는 기본 모델의 제약으로 취급할 필요가 없다. 사용자 의도를 사전에 예측하고 AWS의 엣지 네트워킹 원시 기능을 활용하면 LLM 추론 지연을 완전히 차단할 수 있다. 다만 이 패턴은 일일 요약, 코드 리뷰 요약 등 구조화되고 높은 가치의 UX 체크포인트에만 적용해야 한다.
실천 포인트
생성형 AI 응답 시간이 2초를 초과하는 SaaS 서비스에서 사용자가 자주 요청하는 3~5가지 액션을 예측 가능한 상태로 식별한 후, Step Functions와 저비용 경량 모델(Claude 3 Haiku, Llama 3 8B)로 백그라운드 생성 후 CloudFront KeyValueStore에 캐싱하면 응답 시간을 15ms 수준으로 단축할 수 있다.