피드로 돌아가기
Tenstorrent’s Galaxy Blackhole AI servers escape the event horizon
The RegisterThe Register
AI/ML

100Tbps Ethernet Mesh 기반의 고효율 AI 서버 Galaxy Blackhole 출시

Tenstorrent’s Galaxy Blackhole AI servers escape the event horizon

Tobias Mann2026년 4월 28일3advanced

Context

기존 고성능 AI 가속기 시장의 높은 도입 비용과 특정 벤더 종속성으로 인한 인프라 확장 비용 증가 문제 발생. 하드웨어 성능과 소프트웨어 스택 간의 최적화 미비로 인한 초기 성능 Scaling 효율 저하 직면.

Technical Solution

  • 32개의 Blackhole 가속기를 Dense Ethernet Mesh로 연결하여 100Tbps의 Aggregate Bandwidth 확보
  • Tensor Parallelism과 Pipeline Parallelism의 비율 조정을 통한 모델 규모 및 Throughput 최적화 구조 설계
  • 단일 노드를 넘어 최대 32개 노드 및 1,000개 이상의 칩을 수용하는 Scalable Supercluster 아키텍처 구현
  • Python 기반 Programming Interface 개발을 통한 최적화 Kernel 작성 및 모델 포팅 효율성 개선
  • Batch Size 8에서 64까지 유연한 Scale-out을 지원하는 플랫폼 설계를 통한 처리량 및 인터랙티브 요구사항 대응

Impact

  • 단일 시스템 기준 23 petaFLOPS (FP8) 성능 및 16TB/s Memory Bandwidth 달성
  • Nvidia DGX 대비 약 1/3 ~ 1/5 수준의 낮은 도입 비용($110,000) 실현
  • DeepSeek V3 기준 100,000 Token 프롬프트를 4초 미만으로 처리하는 추론 속도 확보
  • 사용자당 최대 300~350 Tokens/sec의 생성 속도 및 720p 비디오의 실시간 이상 생성 성능 구현

Key Takeaway

하드웨어의 절대적 성능 수치보다 Interconnect Bandwidth와 Software Stack의 최적화 수준이 실제 AI 워크로드의 Scaling 효율을 결정하는 핵심 요소임.


1. 추론 시스템 설계 시 Batch Size 변화에 따른 Throughput과 Latency의 Trade-off 지점 검증

2. 모델 규모 확장을 위해 Tensor/Pipeline Parallelism의 최적 비율 설정 가능 여부 확인

3. 하드웨어 가속기 도입 시 커스텀 Kernel 작성을 위한 프로그래밍 인터페이스 제공 여부 검토

원문 읽기