피드로 돌아가기
vLLM on Google Cloud TPU: A Model Size vs Chip Cheat Sheet (With Interactive Tool)
Dev.toDev.to
AI/ML

vLLM TPU 최적화를 통한 모델 크기별 HBM 효율 및 비용 극대화

vLLM on Google Cloud TPU: A Model Size vs Chip Cheat Sheet (With Interactive Tool)

Grace Gong2026년 4월 30일6intermediate

Context

LLM 추론 시 단순 가중치 크기만 고려한 메모리 할당으로 인한 OOM 발생 및 과도한 비용 지출 문제 존재. 특히 GPU 대비 비용 효율적인 TPU 환경에서 모델 크기, Precision, TPU Slice 간의 최적 조합 도출 필요성 증대.

Technical Solution

  • PagedAttention 기반의 KV Cache 효율적 관리로 Throughput 향상 및 대규모 배치 처리 구조 설계
  • weights × 1.25 공식 적용을 통한 KV Cache 및 Activation Overhead를 고려한 실제 HBM 필요량 산출
  • BF16 대비 메모리 점유율을 50% 절감하는 FP8 Precision 채택으로 단일 칩 내 KV Cache 여유 공간 확보
  • Tensor Parallelism(TP) 크기를 TPU Slice의 약수 또는 일치시켜 하드웨어 자원 활용도 최적화
  • 모델 규모 및 컨텍스트 길이에 따라 v5e(저비용), v6e(범용 성능), Ironwood(초대형 메모리)로 계층화된 인프라 전략 수립

Impact

  • v6e(Trillium) 도입 시 v5e 대비 칩당 Compute 성능 4.7배 향상 및 에너지 효율 67% 개선
  • Ironwood 활용 시 칩당 192GB HBM 확보로 405B 규모의 초대형 모델 및 Long Context 처리 가능

- [ ] 가중치 크기에

1.25를 곱하여 실질적인 HBM 최소 필요량 계산 - [ ] OOM 발생 시 Slice 확장 전 --max-model-len 값을 조정하여 KV Cache 사용량 최적화 - [ ] v6e/Ironwood 환경에서 성능 극대화를 위해 --dtype fp8 옵션 검토 - [ ] Tensor Parallelism 사이즈를 1, 2, 4, 8 중 TPU Slice 구성에 맞는 Power of 2로 설정

원문 읽기