피드로 돌아가기
The RegisterBackend
원문 읽기
CERN eggheads burn AI into silicon to stem data deluge
CERN이 LHC 데이터 처리를 위해 anomaly detection 알고리즘(AXOL1TL)을 FPGA에 하드웨어 수준으로 구워서 초당 100테라바이트의 스트림을 50나노초 내에 99.98% 필터링
AI 요약
Context
LHC는 매년 40,000 EB의 미필터링 센서 데이터를 생성하는데, 이는 인터넷 전체 크기의 약 4분의 1에 해당한다. 초당 수백 테라바이트 수준의 극단적 실시간 처리가 필요하지만 모든 데이터를 저장할 수 없는 상황이다.
Technical Solution
- Level One Trigger: 약 1,000개의 FPGA로 구성된 집계 시스템이 fiber optic line을 통해 초당 10TB/sec의 축소된 이벤트 정보를 수신하고 디지털 재구성 후 accept(1) 또는 reject(0)의 단일 값을 산출
- AXOL1TL anomaly detection 알고리즘: "background"(이미 규명된 Standard Model 영역)에 대해 훈련되어 표준 충돌 위상을 학습하고 50나노초 내에 경계를 벗어난 이벤트를 플래그하도록 ASIC 및 FPGA에 하드웨어 수준으로 구현
- Tree-based 모델 채택: Deep learning 모델 대비 동일한 성능을 분수대의 비용으로 제공하도록 선택 (Standard Model이 tabular data 집합으로 볼 수 있기 때문)
- High Level Trigger: 지상 서버의 25,600 CPU와 400 GPU로 Level One을 통과한 초당 100,000 이벤트에서 추가로 1,000개의 흥미로운 충돌만 선별하여 처리
- 분산 저장: 최종 필터링된 petabyte/day 규모의 데이터를 42개국 170개 사이트에 복제하여 세계 연구자가 1.4백만 개 코어의 집계 컴퓨팅 파워로 분석
Impact
- 초당 10억 건의 충돌 데이터 중 초당 110,000 이벤트(0.02%)만 저장: 99.98% 데이터 감소
- AXOL1TL 알고리즘의 처리 시간: 50나노초
- High Level Trigger 이후 최종 저장 데이터: 초당 약 1,000 이벤트 선별, petabyte/day 규모
- High Luminosity LHC(2031년 운영 예정): 데이터 처리 속도가 초당 4TB/sec에서 63TB/sec로 15.75배 증가, 이벤트 크기는 2MB에서 8MB로 증가
Key Takeaway
초고속 데이터 스트림 환경에서 모든 데이터 보존이 불가능할 때, 알고리즘을 하드웨어 수준(FPGA/ASIC)에 구워 처리 지연을 나노초 단위로 감소시키고 실시간 필터링을 극단적으로 공격적으로 수행하는 edge computing 전략이 유효하다.
실천 포인트
실시간 이벤트 스트림 처리(로그 분석, 금융 주문 필터링, 네트워크 보안)를 구현하는 엔지니어는 논리적 필터링을 최상단 FPGA/ASIC 계층에 배치하고 anomaly detection을 tree-based 모델로 구현하며 필터링 기준을 "정상 패턴"의 학습된 위상으로 설정하면 필터링 레이턴시와 컴퓨팅 비용을 동시에 수십 배 감소시킬 수 있다.