피드로 돌아가기
Resume tokens and last-event IDs for LLM streaming: How they work & what they cost to build
Dev.toDev.to
Infrastructure

연결 단절 시 재시작 없는 LLM 스트리밍을 위한 Resume Token 설계 전략

Resume tokens and last-event IDs for LLM streaming: How they work & what they cost to build

Ably Blog2026년 4월 13일7advanced

Context

LLM 스트리밍 중 연결 단절 시 전체 응답을 재생성함에 따른 토큰 비용 중복 발생 및 사용자 경험 저하 문제 분석. 단순 SSE Last-Event-ID 활용만으로는 분산 환경의 상태 공유와 멀티 디바이스 연속성 보장이 불가능한 한계 존재.

Technical Solution

  • Monotonically Increasing ID 부여를 통한 각 토큰 및 메시지의 순차적 식별 체계 구축
  • Client-side Last-received ID 추적 및 재연결 시 해당 ID 기반의 Catchup delivery 프로토콜 설계
  • Token 단위 개별 저장 시 발생하는 I/O 병목 해결을 위해 Response 단위 Logical Message로 그룹화하여 저장 구조 최적화
  • Client-side Deduplication Key 적용을 통해 중복 메시지 수신 시 렌더링 제외 처리
  • Gap Detection 로직 구현으로 순서가 바뀐 메시지 식별 및 누락 데이터 재요청 메커니즘 도입
  • Session ID 기반의 Server-side Buffer 관리 및 만료 정책 설정을 통한 메모리 효율성 확보

1. 토큰 단위 저장이 아닌 응답 단위 그룹핑 저장으로 DB Read 부하 감소 여부 확인

2. 네트워크 불안정 환경(Mobile handoff 등)을 가정한 Gap/Duplicate 테스트 케이스 확보

3. 분산 서버 환경에서 Session State를 공유할 수 있는 중앙 저장소 또는 Sticky Session 전략 검토

4. Client-side에서 Last-Event-ID를 LocalStorage 등에 유지하여 페이지 새로고침 대응 가능 여부 체크

원문 읽기