피드로 돌아가기
Building haven bench in the open, and the flaky CI ghost it flushed out
Dev.toDev.to
DevOps

Decode Rate 중심의 LLM 벤치마크 구현 및 CI Race Condition 해결

Building haven bench in the open, and the flaky CI ghost it flushed out

InferHaven2026년 6월 24일9intermediate

Context

로컬 LLM 성능 측정 시 모델 로드 및 프롬프트 처리 시간이 포함된 전체 실행 시간은 하드웨어 및 디스크 상태에 따른 변동성이 큼. 이를 배제하고 순수 추론 속도만을 측정할 수 있는 정밀한 벤치마크 지표 산출 체계가 필요함.

Technical Solution

  • Ollama의 nanoseconds 단위 타이밍 데이터를 활용한 정밀 계산 로직 설계
  • 전체 실행 시간이 아닌 eval_count / (eval_duration / 1e9) 공식을 통한 Pure Decode Rate 추출
  • 모델 로드 및 프롬프트 인제스션 단계를 제외하여 VRAM 내 모델 상태에 관계없는 일관된 성능 지표 확보
  • RTX 3060 실측 기반의 Seed 데이터를 활용한 7개 Assertion 유닛 테스트 구축으로 계산 무결성 검증
  • CI 단계에서 발생한 chown 명령과 임시 파일 간의 Race Condition을 식별하여 || true 처리를 통한 예외 허용 구조 적용
  • 실패 시 로그를 즉시 덤프하는 진단 프로세스를 구축하여 인프라 레이어의 간헐적 오류와 애플리케이션 버그를 분리 분석

1. 벤치마크 설계 시 외부 변수가 큰 'Total Time' 대신 핵심 엔진 성능을 나타내는 'Pure Rate' 지표를 정의했는가?

2. CI 실패 시 코드 변경점뿐만 아니라 Container Startup 등 인프라 레이어의 실행 경로를 분리하여 분석했는가?

3. 'Dump logs on failure' 단계를 구축하여 실패 시점의 컨텍스트를 즉시 확인할 수 있는 환경을 갖추었는가?

원문 읽기