Microsoft와 Fireworks AI가 Microsoft Foundry에 고성능 오픈 모델 추론 서비스를 통합해 13T 토큰/일 처리량과 180K 요청/초 성능을 Azure에서 제공

Introducing Fireworks AI on Microsoft Foundry: Bringing high performance, low latency open model inference to Azure

Yina Arenas2026년 3월 11일7분intermediate

AI 요약

Context

조직들이 오픈 모델 도입을 확대하면서 성능, 비용, 커스터마이징, 보안을 동시에 관리해야 하는 문제가 발생했다. 기존에는 모델 평가, 배포, 커스터마이징, 운영을 위해 서로 다른 도구와 인프라를 조합해야 했으며, 이로 인해 혁신 속도가 저하되고 인프라 재구축 없이 확장하기 어려웠다.

Technical Solution

Fireworks AI 추론 엔진을 Microsoft Foundry에 통합: Azure 엔드포인트를 통해 DeepSeek V3.2, OpenAI gpt-oss-120b, Kimi K2.5, MiniMax M2.5 등 오픈 모델에 단일 제어 평면(control plane) 제공
이중 배포 옵션 제공: 실험용 serverless 기반 종량제 토큰 청구 모델과 안정적 처리량이 필요한 워크로드용 PTU(provisioned throughput units) 옵션
Bring-Your-Own-Weights(BYOW) 기능 도입: 사용자가 양자화되거나 미세 조정된 가중치를 업로드·등록 가능하며, 추론 스택 변경 불필요
Foundry 내 통합 거버넌스 및 모니터링 제공: 에이전트 개발, 평가, 배포, 통합 거버넌스, 관찰성을 단일 워크스페이스에서 관리
Fireworks의 고처리량 추론 스택 활용: Azure 수준의 거버넌스를 적용한 빠른 성능과 안정적인 토큰 생성 제공

Impact

Fireworks AI 엔진은 일일 13T 토큰을 처리하며, 초당 180K 요청을 지속하고, 대형 모델에서 초당 1,000 토큰 이상을 생성한다.

Key Takeaway

오픈 모델 채택 단계에서는 단순한 고성능 추론만으로는 불충분하며, 평가에서 프로덕션 운영까지의 전체 생명주기를 지원하는 통합 플랫폼이 필수적이다. 단일 제어 평면을 통해 도구 파편화를 제거하면 조직은 인프라 재구축 없이 오픈 모델을 확장 가능하게 운영할 수 있다.

실천 포인트

Azure에서 오픈 모델 기반 AI 애플리케이션을 개발하는 팀은 Microsoft Foundry에서 Fireworks AI를 선택하면, 모델 평가부터 프로덕션 배포까지 여러 도구를 통합할 필요 없이 단일 제어 평면에서 관리할 수 있으며, BYOW 기능으로 커스텀 모델도 추론 스택 변경 없이 운영 가능하다.

태그

#Inference #Open Models #Fireworks AI #Microsoft Foundry #Azure

원문 읽기