100Tbps Ethernet Mesh 기반의 고효율 AI 서버 Galaxy Blackhole 출시

Tenstorrent’s Galaxy Blackhole AI servers escape the event horizon

Tobias Mann2026년 4월 28일3분advanced

AI 요약

Context

기존 고성능 AI 가속기 시장의 높은 도입 비용과 특정 벤더 종속성으로 인한 인프라 확장 비용 증가 문제 발생. 하드웨어 성능과 소프트웨어 스택 간의 최적화 미비로 인한 초기 성능 Scaling 효율 저하 직면.

32개의 Blackhole 가속기를 Dense Ethernet Mesh로 연결하여 100Tbps의 Aggregate Bandwidth 확보
Tensor Parallelism과 Pipeline Parallelism의 비율 조정을 통한 모델 규모 및 Throughput 최적화 구조 설계
단일 노드를 넘어 최대 32개 노드 및 1,000개 이상의 칩을 수용하는 Scalable Supercluster 아키텍처 구현
Python 기반 Programming Interface 개발을 통한 최적화 Kernel 작성 및 모델 포팅 효율성 개선
Batch Size 8에서 64까지 유연한 Scale-out을 지원하는 플랫폼 설계를 통한 처리량 및 인터랙티브 요구사항 대응

하드웨어의 절대적 성능 수치보다 Interconnect Bandwidth와 Software Stack의 최적화 수준이 실제 AI 워크로드의 Scaling 효율을 결정하는 핵심 요소임.

실천 포인트

1. 추론 시스템 설계 시 Batch Size 변화에 따른 Throughput과 Latency의 Trade-off 지점 검증

2. 모델 규모 확장을 위해 Tensor/Pipeline Parallelism의 최적 비율 설정 가능 여부 확인

3. 하드웨어 가속기 도입 시 커스텀 Kernel 작성을 위한 프로그래밍 인터페이스 제공 여부 검토

태그