Meta가 적응형 순위 모델을 활용해 LLM 규모의 추천 시스템을 100ms 지연 시간으로 서빙하는 추론 효율화 기법을 공개했다

Meta Adaptive Ranking Model: Bending the Inference Scaling Curve to Serve LLM-Scale Models for Ads

2026년 3월 31일10분advanced

AI 요약

Context

기존 광고 추천 시스템은 모든 요청에 동일한 모델을 적용하는 one-size-fits-all 방식으로 운영되었다. 모델 규모가 LLM 수준으로 확장됨에 따라 계산량과 메모리 요구량이 급격히 증가했고, 전 세계 수십억 사용자에게 서브세컨드 지연 시간을 보장해야 하는 요구사항과 비용 효율성 간의 근본적 긴장이 발생했다.

Technical Solution

Inference-Efficient Model Scaling: 요청 중심 compute flow로 전환하여 LLM 규모에서 발생하는 대규모 중복 계산 구조를 제거하고 선형에서 부분 선형으로 확장 비용을 변환한다.
Model/System Co-Design: 모델 설계를 밑바탕 하드웨어 및 silicon의 특성과 한계에 맞춰 조정하여 여러 하드웨어 유형에서 MFU를 35%까지 향상시킨다.
Reimagined Serving Infrastructure: 멀티카드 GPU serving infrastructure를 활용하여 단일 디바이스의 물리적 메모리 한계를 극복하고 O(1T) 매개변수 확장을 가능하게 한다.
Adaptive Request Routing: 요청별 복잡도를 동적으로 조정하여 사용자 맥락과 의도에 따라 가장 효과적인 모델을 선택적으로 제공한다.
Latency Optimization: GPU에서 feature preprocessing을 오프로딩하고 end-to-end 실행 경로를 간소화하여 복잡도 오버헤드를 상쇄한다.

Impact

2025년 4분기 Instagram 출시 이후 대상 사용자 기준 광고 전환율 3% 증가, 광고 클릭률 5% 증가를 달성했다.

Key Takeaway

LLM 규모의 모델 복잡성과 서브세컨드 지연 시간 요구사항 간의 긴장을 해결하려면 개별 기술 최적화보다 모델 아키텍처, 하드웨어 설계, 서빙 인프라를 통합 설계하는 접근이 필수적이다.

실천 포인트

대규모 실시간 추천 시스템에서 LLM 규모의 모델을 서빙할 때 hardware-aware model architecture과 multi-card GPU infrastructure를 결합하여 지연 시간 영향을 최소화하면서 모델 복잡도를 극대화할 수 있다.

태그

#Multi-card GPU Serving #Adaptive Ranking Model #Sub-second Latency #Model-System Co-Design #Inference Scaling

원문 읽기