GLM-5 대규모 서비스 중 발견한 레이스 컨디션 버그 수정기 — Coding Agent 추론 인프라의 Scaling Pain

KV Cache 레이스 컨디션 해결 및 LayerSplit 통한 처리량 최대 132% 개선

darjeeling2026년 4월 30일4분advanced

AI 요약

Context

수억 건 규모의 GLM-5 Coding Agent 서비스 중 고동시성 및 장문맥 환경에서 발생하는 출력 오염 현상 발견. PD 분리 아키텍처의 비동기 제어 미흡과 HiCache의 동기화 누락으로 인한 KV Cache 손상이 핵심 원인임.

Speculative Decoding의 spec_accept_length 및 spec_accept_rate 메트릭을 활용한 출력 품질 실시간 모니터링 체계 구축
Decode의 abort 신호와 Prefill의 RDMA write 완료 확인을 결합한 '회수 안전' 신호 기반 KV Cache 재할당 로직 설계
HiCache 내 Load Stream과 Forward Stream 사이의 명시적 동기화 포인트를 삽입하여 read-before-ready 패턴 차단
GPU별 KV Cache 중복 저장을 제거하고 레이어 단위로 분산 저장하는 LayerSplit 아키텍처 도입
Indexer cache 브로드캐스트와 연산을 오버랩하여 통신 오버헤드를 은닉한 고효율 데이터 전송 구조 구현

실천 포인트

1. 비동기 리소스 회수 시 생성자-소비자 간의 최종 확인(Ack) 메커니즘이 존재하는지 검토

2. 스트림 기반 파이프라인 설계 시 커널 간 실행 순서 보장을 위한 명시적 동기화 지점 설정

3. Speculative Decoding 지표를 단순 성능 향상이 아닌 런타임 이상 탐지 신호로 활용 가능성 검토

태그