피드로 돌아가기
I'm under 18, broke, and I just designed an open-source AI chip. Here's the full story.
Dev.toDev.to
Infrastructure

H100의 1/6 비용으로 구현한 오픈소스 AI 칩 T1C 설계 기록

I'm under 18, broke, and I just designed an open-source AI chip. Here's the full story.

Alexzo2026년 4월 5일4advanced

Context

고가 장비와 폐쇄적 아키텍처 중심의 AI 하드웨어 시장 구조. Von Neumann 병목 현상으로 인한 데이터 전송 효율 저하 및 전력 소모 증가. 개인 수준에서 제작 가능한 오픈소스 AI 가속기 부재.

Technical Solution

  • 데이터 이동 최소화를 위해 메모리 근접 연산을 수행하는 Digital In-Memory Computing(D-IMC) 아키텍처 채택
  • 고가의 TSMC CoWoS 패키징 대신 4x LPDDR5X 칩과 128-bit wide bus 기반의 표준 PCB 조립 방식 전환
  • 10mV 수준의 미세 전압 변동 제어를 위한 on-chip LDO, MOM 커패시터 등 5계층 Adaptive Voltage Stack 설계
  • QJL 단계의 분산 증폭 문제를 해결하기 위해 PolarQuant-only 방식의 4-bit 양자화 전략 적용
  • 하드웨어 MMU 기반의 SRAM 분할을 통해 최대 4개의 독립 슬라이스를 제공하는 Multi-Instance MAAU(MIM) 구현
  • Verilog RTL, GDSII 파일, ISA 명세서를 MIT 라이선스로 공개하여 설계부터 제조까지 전 과정 오픈소스화

Impact

  • LLaMA 70B 모델 실행 시 10~16 tokens per second 성능 확보
  • 클러스터 구축 총 비용 5,200달러 미만으로 NVIDIA H100(30,000달러) 대비 비용 절감
  • LPDDR5X 적용을 통한 메모리 대역폭 168 GB/s 달성 및 부품 비용 70달러에서 15~35달러로 낮춤
  • 전압 안정도 ±3mV 수준의 정밀 제어 달성

Key Takeaway

하드웨어 제약 사항을 소프트웨어적 우회나 표준 부품 조합으로 해결하는 실용적 엔지니어링 설계 원칙. 공개적인 오류 기록과 수정 과정을 통한 오픈소스 하드웨어 생태계 구축 방식.


고가의 전용 패키징 기술이 불가능한 환경에서는 표준 PCB와 LPDDR 메모리 조합의 대역폭 최적화를 우선 검토할 것

원문 읽기