80MHz FPGA 기반 56k tokens/sec 달성한 GateGPT 설계

GateGPT: 56k tokens per second Transformer (KV cache) on FPGA at 80 MHz

2026년 6월 16일1분advanced

AI 요약

Context

기존 Transformer 추론 과정에서 발생하는 GPU/CPU 의존성으로 인한 전력 소모 및 지연 시간 발생. 범용 프로세서의 오버헤드를 제거한 전용 하드웨어 가속기의 필요성 대두.

범용 컴퓨팅 자원을 제거하고 특정 모델의 연산 구조를 하드웨어 게이트 수준에서 최적화함으로써 극단적인 추론 효율성 확보 가능

실천 포인트

추론 지연 시간이 임계치에 도달했을 때 소프트웨어 최적화 대신 FPGA 기반의 전용 가속기(ASIC/FPGA) 도입 및 KV cache 하드웨어 최적화 검토

태그