피드로 돌아가기
Cloudflare BlogAI/ML
원문 읽기
Powering the agents: Workers AI now runs large models, starting with Kimi K2.5
Cloudflare가 Workers AI에 Kimi K2.5 모델을 통합하여 보안 코드 리뷰 에이전트의 연간 운영비를 77% 절감(240만 달러 → 소수 백만 달러)
AI 요약
Context
개별 엔지니어와 조직이 24/7 실행되는 개인 에이전트와 자동화 에이전트를 배포하면서 추론 트래픽이 급증했으며, 대규모 상용 모델의 비용이 엔터프라이즈 규모 도입의 주요 장벽이 되었다. Workers AI가 기존에 소형 모델만 제공했기 때문에, 성능과 비용을 동시에 만족하는 추론 플랫폼이 필요했다.
Technical Solution
- Kimi K2.5 모델을 Workers AI에 통합: 256k 컨텍스트 윈도우, 멀티턴 도구 호출, 비전 입력, 구조화된 출력 지원
- 맞춤 커널 개발을 통한 성능 최적화: Infire 추론 엔진 위에 Kimi K2.5용 커널 구현으로 GPU 활용률 향상
- 대형 모델 서빙 기술 적용: 데이터/텐서/전문가 병렬화 기법과 disaggregated prefill(프리필과 생성 단계를 별도 머신에서 처리) 구현
- 풀 기반 비동기 요청 처리로 변경: 기존 푸시 방식에서 풀 방식으로 전환하여 용량 확보 시 즉시 대기 요청 처리, 동기 요청 우선 처리
- 실시간 GPU 활용률 모니터링 및 스로틀링: 비동기 요청 처리량을 동적으로 조정하여 동기 요청 지연 최소화
- 이벤트 알림 기반 완료 감지: 폴링 대신 요청 완료 시 이벤트 알림으로 전환하여 응답성 개선
Impact
- 보안 코드 리뷰 에이전트 비용 77% 감소: 일일 70억 토큰 처리 시 연간 240만 달러 절감
- 단일 코드베이스에서 하나의 에이전트가 15개 이상의 보안 문제 탐지
Key Takeaway
대규모 추론을 필요로 하는 에이전트 플랫폼은 상용 모델 대신 오픈소스 frontier 모델(Kimi K2.5 등)을 도입하되, 맞춤 커널, 병렬화 기법, disaggregated prefill, 풀 기반 스케줄링 등의 인프라 최적화를 함께 적용해야 비용 효율과 성능을 동시에 달성할 수 있다.
실천 포인트
에이전트 기반 자동화 시스템을 구축하는 팀에서 상용 대형 언어 모델 비용이 월 단위 백만 달러를 초과할 경우, Kimi K2.5 같은 오픈소스 frontier 모델 + Workers AI 같은 최적화된 추론 플랫폼 조합을 검토하면 동일 성능에서 70% 이상의 비용 절감을 기대할 수 있다.