피드로 돌아가기
Meta EngineeringInfrastructure
원문 읽기
인간 전문가의 수주 작업을 단 몇 시간으로, KernelEvolve의 자동 최적화 전략
KernelEvolve: How Meta’s Ranking Engineer Agent Optimizes AI Infrastructure
AI 요약
Context
하드웨어 종류와 모델 아키텍처 및 연산자 수의 곱으로 커널 구성 수가 기하급수적으로 증가하는 구조. 전문가의 수동 튜닝 방식으로는 하드웨어 확장 속도를 따라가지 못하는 한계. 모델 반복 주기와 하드웨어 적용 속도를 늦추는 핵심 병목 지점 발생.
Technical Solution
- 커널 최적화를 단일 코드 생성이 아닌 반복적인 탐색 문제(Search Problem)로 정의하는 설계
- 후보 커널의 성능을 평가하고 진단 정보를 LLM에 다시 전달하는 전용 Job-harness 기반의 피드백 루프 구축
- Triton, Cute DSL, FlyDSL 등 고수준 DSL부터 CUDA, HIP, MTIA C++ 등 저수준 언어까지 포괄하는 다중 언어 생성 전략
- NVIDIA GPU, AMD GPU, MTIA, CPU 등 이기종 하드웨어 환경 전반에 적용 가능한 범용 최적화 프레임워크 구현
- 프로파일링, 최적화, 하드웨어 간 디버깅 과정을 자동화하여 검색 및 평가 기반의 최적 솔루션 도출 방식
Impact
- NVIDIA GPU 기반 Andromeda Ads 모델의 추론 처리량(Inference Throughput) 60% 이상 향상
- Meta 커스텀 MTIA 칩 기반 광고 모델의 학습 처리량(Training Throughput) 25% 이상 향상
- 수주 소요되던 전문가의 커널 최적화 작업 시간을 수 시간 단위로 단축
Key Takeaway
복잡도가 높은 저수준 최적화 영역에서도 '생성-평가-피드백'의 반복적 탐색 루프를 구축하면 인간 전문가의 성능을 능가하는 자동화가 가능함.
실천 포인트
이기종 하드웨어 환경에서 커널 최적화 병목 발생 시, 단발성 코드 생성보다 진단 데이터 기반의 반복적 Search Loop 구축을 검토할 것