피드로 돌아가기
How I dropped LLM latency from 500ms to 0ms in real-time physics loops
Dev.toDev.to
AI/ML

SCP 프로토콜 도입을 통한 LLM 제어 지연 시간 500ms에서 0ms로 단축

How I dropped LLM latency from 500ms to 0ms in real-time physics loops

siva rama (SRK0102)2026년 4월 14일2advanced

Context

60fps 기반의 Real-time physics loop에서 LLM이 모든 Tool-call을 제어하는 Brain-Pull 모델의 한계 직면. API 응답 대기 시간으로 인한 에이전트 정지 현상과 매 프레임 발생하는 과도한 API 비용이 주요 병목 지점으로 작용.

Technical Solution

  • Brain-Pull 구조에서 Body-Push 구조로의 계층 구조 역전 설계를 통한 제어권 분리
  • Local Pattern Store 기반의 Muscle-First 로직을 구축하여 60fps 로컬 루프 유지
  • Novel State 발생 시에만 LLM에 쿼리를 전송하는 Cache Miss 기반의 호출 최적화
  • LLM의 피드백을 로컬에 저장하여 반복적 판단을 제거하는 Local Learning 메커니즘 구현
  • Plexa 오케스트레이터를 통한 고수준 Intent의 하위 SCP Body 분산 시퀀싱 및 동기화 제어

Impact

  • MuJoCo Cart-Pole 테스트 기준, 루프 1회차 27회였던 LLM 호출 횟수가 17회차에 0회로 감소
  • LLM 제어 지연 시간 500ms에서 0ms로 제거 및 API 비용 $0 달성

실시간 제어 시스템 설계 시 LLM을 Decision Maker가 아닌 Pattern Teacher로 정의하고, 실행부는 Local Cache 기반의 상태 머신으로 분리하여 Latency를 격리할 것

원문 읽기