인간 전문가의 수주 작업을 단 몇 시간으로, KernelEvolve의 자동 최적화 전략

KernelEvolve: How Meta’s Ranking Engineer Agent Optimizes AI Infrastructure

2026년 4월 2일16분advanced

AI 요약

Context

하드웨어 종류와 모델 아키텍처 및 연산자 수의 곱으로 커널 구성 수가 기하급수적으로 증가하는 구조. 전문가의 수동 튜닝 방식으로는 하드웨어 확장 속도를 따라가지 못하는 한계. 모델 반복 주기와 하드웨어 적용 속도를 늦추는 핵심 병목 지점 발생.

커널 최적화를 단일 코드 생성이 아닌 반복적인 탐색 문제(Search Problem)로 정의하는 설계
후보 커널의 성능을 평가하고 진단 정보를 LLM에 다시 전달하는 전용 Job-harness 기반의 피드백 루프 구축
Triton, Cute DSL, FlyDSL 등 고수준 DSL부터 CUDA, HIP, MTIA C++ 등 저수준 언어까지 포괄하는 다중 언어 생성 전략
NVIDIA GPU, AMD GPU, MTIA, CPU 등 이기종 하드웨어 환경 전반에 적용 가능한 범용 최적화 프레임워크 구현
프로파일링, 최적화, 하드웨어 간 디버깅 과정을 자동화하여 검색 및 평가 기반의 최적 솔루션 도출 방식

복잡도가 높은 저수준 최적화 영역에서도 '생성-평가-피드백'의 반복적 탐색 루프를 구축하면 인간 전문가의 성능을 능가하는 자동화가 가능함.

실천 포인트

이기종 하드웨어 환경에서 커널 최적화 병목 발생 시, 단발성 코드 생성보다 진단 데이터 기반의 반복적 Search Loop 구축을 검토할 것

태그