Nvidia가 Groq 인수로 LP30 LPU 칩을 기반한 Groq-3 LPX 랙 시스템 출시로 시간 대비 LLM 토큰 생성 속도 500~1000 tokens/s 달성

Decoding Nvidia's Groq-powered LPX and the rest of its new rack systems

Tobias Mann2026년 3월 19일10분advanced

AI 요약

Context

현재 GPU는 배치 처리에는 우수하지만 사용자당 토큰 생성 속도가 증가할수록 효율성이 급감한다. Nvidia는 LLM 추론 시 고속·저지연 응답이 필요한 상황에서 GPU만으로는 최적의 성능을 제공할 수 없었다.

Technical Solution

SRAM 기반 아키텍처 도입: Groq의 LP30 LPU를 Samsung 파운드리에서 제조하여 von Neumann 구조 대신 데이터 흐름(data flow) 아키텍처 채택
Groq-3 LPX 랙 구성: 256개의 LP30 LPU를 32개 컴퓨트 트레이에 배치하여 단일 랙 시스템 구성
고대역폭 메모리 아키텍처: 각 LP30당 500MB 온칩 SRAM으로 150TB/s 메모리 대역폭 확보 (GPU HBM4 대비 7배)
고속 인터커넥트 구성: 각 칩에 112 Gbps SerDes 96개를 배치하여 총 2.5TB/s 양방향 대역폭 제공
하이브리드 추론 플랫폼 구축: GPU와 LPU를 조합하여 높은 처리량과 사용자당 토큰 생성 속도를 동시에 달성
주변 인프라 확충: Vera CPU 랙(에이전트 시스템용), BlueField-4 STX 스토리지 랙(KV 캐시 오프로드용), Spectrum-6 SPX 네트워크 랙 추가

Impact

토큰 생성 속도: 500~1000 tokens/s 달성
메모리 대역폭: GPU 대비 약 7배 향상 (150TB/s vs 21.4TB/s)
KV 캐시 오프로드를 통한 토큰 생성 속도 향상: 최대 5배 증가 가능
추론 가격 설정 목표: 테스트 타임 스케일링 활용 시 토큰당 $150/백만 토큰

Key Takeaway

대규모 언어 모델의 추론 병목 현상을 해결하기 위해서는 GPU의 배치 처리 능력과 SRAM 기반 아키텍처의 저지연 토큰 생성을 하이브리드로 결합하는 아키텍처 전략이 필수적이다. 시간 대비 이점 확보가 기술 수용과 시장 점유율 결정의 핵심 요소가 될 수 있다.

실천 포인트

LLM 추론 서비스를 운영하는 클라우드 제공자나 AI 플랫폼 팀은 배치 처리(프롬프트 입력 단계)와 자동회귀 디코딩(토큰 생성 단계)을 분리하여 각각 최적화된 가속기(GPU와 SRAM 기반 LPU)로 처리하면, 사용자당 토큰 생성 지연 시간을 줄이면서도 전체 처리량을 유지할 수 있다. 특히 KV 캐시를 별도 스토리지에 오프로드하면 GPU 메모리 압박을 완화하여 추론 효율을 추가로 향상시킬 수 있다.

태그

#GPU-Hybrid #LPU #Inference #SRAM #LLM

원문 읽기