Decode Rate 중심의 LLM 벤치마크 구현 및 CI Race Condition 해결

Building haven bench in the open, and the flaky CI ghost it flushed out

InferHaven2026년 6월 24일9분intermediate

AI 요약

Context

로컬 LLM 성능 측정 시 모델 로드 및 프롬프트 처리 시간이 포함된 전체 실행 시간은 하드웨어 및 디스크 상태에 따른 변동성이 큼. 이를 배제하고 순수 추론 속도만을 측정할 수 있는 정밀한 벤치마크 지표 산출 체계가 필요함.

Ollama의 nanoseconds 단위 타이밍 데이터를 활용한 정밀 계산 로직 설계
전체 실행 시간이 아닌 eval_count / (eval_duration / 1e9) 공식을 통한 Pure Decode Rate 추출
모델 로드 및 프롬프트 인제스션 단계를 제외하여 VRAM 내 모델 상태에 관계없는 일관된 성능 지표 확보
RTX 3060 실측 기반의 Seed 데이터를 활용한 7개 Assertion 유닛 테스트 구축으로 계산 무결성 검증
CI 단계에서 발생한 chown 명령과 임시 파일 간의 Race Condition을 식별하여 || true 처리를 통한 예외 허용 구조 적용
실패 시 로그를 즉시 덤프하는 진단 프로세스를 구축하여 인프라 레이어의 간헐적 오류와 애플리케이션 버그를 분리 분석

실천 포인트

1. 벤치마크 설계 시 외부 변수가 큰 'Total Time' 대신 핵심 엔진 성능을 나타내는 'Pure Rate' 지표를 정의했는가?

2. CI 실패 시 코드 변경점뿐만 아니라 Container Startup 등 인프라 레이어의 실행 경로를 분리하여 분석했는가?

3. 'Dump logs on failure' 단계를 구축하여 실패 시점의 컨텍스트를 즉시 확인할 수 있는 환경을 갖추었는가?

태그