피드로 돌아가기
GateGPT: 56k tokens per second Transformer (KV cache) on FPGA at 80 MHz
Hacker NewsHacker News
AI/ML

80MHz FPGA 기반 56k tokens/sec 달성한 GateGPT 설계

GateGPT: 56k tokens per second Transformer (KV cache) on FPGA at 80 MHz

2026년 6월 16일1advanced

Context

기존 Transformer 추론 과정에서 발생하는 GPU/CPU 의존성으로 인한 전력 소모 및 지연 시간 발생. 범용 프로세서의 오버헤드를 제거한 전용 하드웨어 가속기의 필요성 대두.

Technical Solution

  • GPU/CPU를 배제한 100% Digital Integrated Circuit 기반의 맞춤형 칩 설계
  • Gate-by-gate 설계를 통한 하드웨어 수준의 최적화로 연산 효율 극대화
  • KV cache를 FPGA 내부에 직접 구현하여 메모리 접근 병목 현상 해결
  • microGPT 모델의 연산 그래프를 하드웨어 로직으로 직접 매핑한 구조 채택
  • 80MHz의 낮은 동작 주파수로도 고속 추론이 가능한 병렬 처리 파이프라인 구축

Impact

  • 80MHz 클럭 속도에서 56,000+ tokens/sec의 추론 속도 달성

Key Takeaway

범용 컴퓨팅 자원을 제거하고 특정 모델의 연산 구조를 하드웨어 게이트 수준에서 최적화함으로써 극단적인 추론 효율성 확보 가능


추론 지연 시간이 임계치에 도달했을 때 소프트웨어 최적화 대신 FPGA 기반의 전용 가속기(ASIC/FPGA) 도입 및 KV cache 하드웨어 최적화 검토

원문 읽기