피드로 돌아가기
Inference is giving AI chip startups a second chance to make their mark
The RegisterThe Register
AI/ML

Prefill/Decode 분리 및 Optical Core 도입을 통한 AI Inference 최적화

Inference is giving AI chip startups a second chance to make their mark

Tobias Mann2026년 5월 3일3advanced

Context

AI 워크로드 중심축이 Training에서 Inference로 이동하며 Diverse Workload 처리를 위한 하드웨어 최적화 요구 증가. 단일 GPU 구조로는 대규모 Batch 처리와 실시간 Token 생성이라는 상충하는 요구사항을 동시에 만족시키기 어려운 한계 존재.

Technical Solution

  • Compute-intensive한 Prefill 단계와 Bandwidth-constrained한 Decode 단계를 분리한 Disaggregated Compute 아키텍처 설계
  • Prefill 작업은 연산 밀도가 높은 GPU 또는 Trainium 가속기로 처리하여 처리량 극대화
  • Decode 작업은 SRAM 기반의 LPU 또는 Wafer-scale 가속기를 활용하여 Token 생성 속도 향상
  • Matrix Multiplication 부하를 줄이기 위해 전자가 아닌 빛을 이용하는 Optical Tensor Core 기반 하이브리드 구조 도입
  • RISC-V 기반의 General-purpose 설계를 통해 가속기 중첩으로 인한 복잡성을 제거하려는 통합 아키텍처 시도
  • 전력 효율 개선을 위해 디지털 아키텍처 대신 광학 연산을 통한 저전력 고성능 연산 구현

1. AI 추론 파이프라인의 병목이 Prefill(연산)인지 Decode(대역폭)인지 정밀하게 측정

2. 단일 칩 해결책보다 워크로드 특성에 맞는 전용 가속기 조합(Disaggregated) 검토

3. 하드웨어 추상화 계층을 설계하여 모델 구조 변경 시 가속기 교체 유연성 확보

4. 전력 효율 극대화가 필요한 경우 Optical Computing 등 비전통적 연산 구조 도입 가능성 타진

원문 읽기