OpenAI, Broadcom과 만든 첫 자체 추론 칩 Jalapeño 공개

비용 50% 절감 및 9개월 테이프아웃 달성한 LLM 전용 ASIC Jalapeño 공개

neo2026년 6월 25일17분advanced

AI 요약

Context

범용 AI GPU의 높은 비용 구조와 전력 효율 한계로 인한 추론 비용 상승 문제 발생. Nvidia 의존도를 낮추고 LLM 추론 워크로드에 최적화된 전용 하드웨어 인프라 확보 필요성 증대.

Technical Solution

Blank-slate 설계를 통한 LLM 추론 특화 ASIC 구조 구현
커널, 메모리, 네트워킹 자원의 균형 설계를 통한 실질 활용률 극대화
8개의 HBM 사이트와 중앙 컴퓨트 다이 배치를 통한 데이터 이동 최소화
OpenAI 자체 모델을 활용한 설계 및 최적화 프로세스 가속화
Broadcom의 Tomahawk 네트워킹 실리콘 기반 대규모 양산 체계 구축
프런티어 모델의 서빙 패턴과 메모리 이동 경로를 반영한 아키텍처 최적화

실천 포인트

- 워크로드의 지배적인 병목 지점(Memory-bound vs Compute-bound) 식별 후 하드웨어 자원 배분 최적화 검토 - 소프트웨어 스택(커널, 스케줄러)과 하드웨어 설계를 동시에 진행하는 Full-stack Co-design 전략 적용 - 개발 주기 단축을 위해 설계 자동화 단계에 LLM 등 최신 AI 도구 도입 가능성 평가

태그

#LLM-Inference #Full-stack Strategy #ASIC #Tape-out #HBM

원문 읽기