llama-bench FA 기본값 교정으로 하드웨어 가속 최적화 실현

llama-bench skipped FA on capable GPUs — b9437 corrects it

Creeta2026년 6월 18일9분intermediate

AI 요약

Context

llama-bench 도구가 llama-server 및 llama-cli와 달리 Flash Attention(FA) 설정을 hard-coded off 상태로 유지함. 이로 인해 CUDA, Metal, Vulkan 등 FA 지원 하드웨어에서도 최적화된 attention 경로를 활용하지 못하는 병목 발생.

Technical Solution

Flash Attention 설정을 hard-coded off에서 LLAMA_FLASH_ATTN_TYPE_AUTO로 변경하여 런타임 백엔드 감지 기반 활성화 구조 도입
GPU layer count 설정을 레거시 sentinel 값인 99에서 런타임 결정 값인 -1로 수정하여 툴체인 간 일관성 확보
FA-capable 하드웨어(CUDA, Metal, Vulkan) 탐지 시 자동 활성화하고 CPU 전용 호스트에서는 오류 없이 표준 attention을 유지하는 tri-state flag 로직 적용
툴체인 전체의 플래그 시맨틱을 통일하여 llama-server에서 검증된 설정값이 llama-bench에서도 동일하게 작동하도록 설계 변경

실천 포인트

- 벤치마크 도구의 기본 설정값이 실제 런타임 환경의 최적화 옵션과 일치하는지 검증 - 하드웨어 가속 기능의 활성화 여부를 결정하는 플래그를 명시적(Explicit)으로 관리하여 결과의 재현성 확보 - 여러 도구로 구성된 툴체인 운용 시 설정값의 표준화(Standardization)를 통한 설정 오류 방지

태그

#Benchmark Optimization #Flash Attention #Hardware Acceleration #llama.cpp #GPU Offloading

원문 읽기