피드로 돌아가기
OpenAI and Broadcom's Jalapeño, a Custom Inference ASIC: Inference ASIC vs GPU
Dev.toDev.to
AI/ML

데이터 이동 병목 해결을 통한 LLM 추론 전용 ASIC 'Jalapeño' 개발

OpenAI and Broadcom's Jalapeño, a Custom Inference ASIC: Inference ASIC vs GPU

pueding2026년 6월 27일8advanced

Context

범용 GPU의 유연성으로 인한 불필요한 전력 소모와 실리콘 낭비 발생. LLM 추론 시 연산량보다 메모리에서 가중치를 읽어오는 데이터 이동 단계가 전체 성능을 결정하는 Memory-bandwidth-bound 현상이 핵심 병목으로 작용.

Technical Solution

  • 범용 연산 기능을 제거하고 LLM 추론에 최적화된 ASIC 구조 채택
  • Reticle-size compute chiplet과 HBM을 물리적으로 밀착 배치하여 데이터 전송 경로 단축
  • 연산 유닛의 범용성 대신 메모리와 연산 유닛 간의 전송 효율을 극대화한 하드웨어 설계
  • 모델 가중치 스트리밍 효율을 높여 Single-token decode 단계의 대기 시간 최소화
  • 설계부터 Tape-out까지 약 9개월의 초단기 사이클을 통한 최적화 반영

1. 시스템 병목이 연산 능력(Compute-bound)인지 데이터 이동(Memory-bound)인지 명확히 구분

2. 대규모 트래픽 발생 지점에서 범용 솔루션의 오버헤드가 비용에 미치는 영향 분석

3. 데이터 경로 단축을 위한 하드웨어/소프트웨어적 계층 구조 최적화 검토

원문 읽기