vLLM TPU 최적화를 통한 모델 크기별 HBM 효율 및 비용 극대화

vLLM on Google Cloud TPU: A Model Size vs Chip Cheat Sheet (With Interactive Tool)

Grace Gong2026년 4월 30일6분intermediate

AI 요약

Context

LLM 추론 시 단순 가중치 크기만 고려한 메모리 할당으로 인한 OOM 발생 및 과도한 비용 지출 문제 존재. 특히 GPU 대비 비용 효율적인 TPU 환경에서 모델 크기, Precision, TPU Slice 간의 최적 조합 도출 필요성 증대.

Technical Solution

PagedAttention 기반의 KV Cache 효율적 관리로 Throughput 향상 및 대규모 배치 처리 구조 설계
weights × 1.25 공식 적용을 통한 KV Cache 및 Activation Overhead를 고려한 실제 HBM 필요량 산출
BF16 대비 메모리 점유율을 50% 절감하는 FP8 Precision 채택으로 단일 칩 내 KV Cache 여유 공간 확보
Tensor Parallelism(TP) 크기를 TPU Slice의 약수 또는 일치시켜 하드웨어 자원 활용도 최적화
모델 규모 및 컨텍스트 길이에 따라 v5e(저비용), v6e(범용 성능), Ironwood(초대형 메모리)로 계층화된 인프라 전략 수립

Impact

v6e(Trillium) 도입 시 v5e 대비 칩당 Compute 성능 4.7배 향상 및 에너지 효율 67% 개선
Ironwood 활용 시 칩당 192GB HBM 확보로 405B 규모의 초대형 모델 및 Long Context 처리 가능

실천 포인트

- [ ] 가중치 크기에

1.25를 곱하여 실질적인 HBM 최소 필요량 계산 - [ ] OOM 발생 시 Slice 확장 전 --max-model-len 값을 조정하여 KV Cache 사용량 최적화 - [ ] v6e/Ironwood 환경에서 성능 극대화를 위해 --dtype fp8 옵션 검토 - [ ] Tensor Parallelism 사이즈를 1, 2, 4, 8 중 TPU Slice 구성에 맞는 Power of 2로 설정

태그

#Cloud TPU #Tensor Parallelism #PagedAttention #vLLM #HBM

원문 읽기