피드로 돌아가기
GeekNewsInfrastructure
원문 읽기
OpenAI, Broadcom과 만든 첫 자체 추론 칩 Jalapeño 공개
비용 50% 절감 및 9개월 테이프아웃 달성한 LLM 전용 ASIC Jalapeño 공개
AI 요약
Context
범용 AI GPU의 높은 비용 구조와 전력 효율 한계로 인한 추론 비용 상승 문제 발생. Nvidia 의존도를 낮추고 LLM 추론 워크로드에 최적화된 전용 하드웨어 인프라 확보 필요성 증대.
Technical Solution
- Blank-slate 설계를 통한 LLM 추론 특화 ASIC 구조 구현
- 커널, 메모리, 네트워킹 자원의 균형 설계를 통한 실질 활용률 극대화
- 8개의 HBM 사이트와 중앙 컴퓨트 다이 배치를 통한 데이터 이동 최소화
- OpenAI 자체 모델을 활용한 설계 및 최적화 프로세스 가속화
- Broadcom의 Tomahawk 네트워킹 실리콘 기반 대규모 양산 체계 구축
- 프런티어 모델의 서빙 패턴과 메모리 이동 경로를 반영한 아키텍처 최적화
실천 포인트
- 워크로드의 지배적인 병목 지점(Memory-bound vs Compute-bound) 식별 후 하드웨어 자원 배분 최적화 검토 - 소프트웨어 스택(커널, 스케줄러)과 하드웨어 설계를 동시에 진행하는 Full-stack Co-design 전략 적용 - 개발 주기 단축을 위해 설계 자동화 단계에 LLM 등 최신 AI 도구 도입 가능성 평가