피드로 돌아가기
GeekNewsAI/ML
원문 읽기
GLM-5 대규모 서비스 중 발견한 레이스 컨디션 버그 수정기 — Coding Agent 추론 인프라의 Scaling Pain
KV Cache 레이스 컨디션 해결 및 LayerSplit 통한 처리량 최대 132% 개선
AI 요약
Context
수억 건 규모의 GLM-5 Coding Agent 서비스 중 고동시성 및 장문맥 환경에서 발생하는 출력 오염 현상 발견. PD 분리 아키텍처의 비동기 제어 미흡과 HiCache의 동기화 누락으로 인한 KV Cache 손상이 핵심 원인임.
Technical Solution
- Speculative Decoding의 spec_accept_length 및 spec_accept_rate 메트릭을 활용한 출력 품질 실시간 모니터링 체계 구축
- Decode의 abort 신호와 Prefill의 RDMA write 완료 확인을 결합한 '회수 안전' 신호 기반 KV Cache 재할당 로직 설계
- HiCache 내 Load Stream과 Forward Stream 사이의 명시적 동기화 포인트를 삽입하여 read-before-ready 패턴 차단
- GPU별 KV Cache 중복 저장을 제거하고 레이어 단위로 분산 저장하는 LayerSplit 아키텍처 도입
- Indexer cache 브로드캐스트와 연산을 오버랩하여 통신 오버헤드를 은닉한 고효율 데이터 전송 구조 구현
실천 포인트
1. 비동기 리소스 회수 시 생성자-소비자 간의 최종 확인(Ack) 메커니즘이 존재하는지 검토
2. 스트림 기반 파이프라인 설계 시 커널 간 실행 순서 보장을 위한 명시적 동기화 지점 설정
3. Speculative Decoding 지표를 단순 성능 향상이 아닌 런타임 이상 탐지 신호로 활용 가능성 검토