Stripe BlogStripe가 AI 에이전트의 풀스택 통합 능력을 평가하는 벤치마크를 개발해 Claude Opus 4.5의 92% 정확도와 GPT-5.2의 73% 정확도 측정Can AI agents build real Stripe integrations? We built a benchmark to find outAI/MLintermediate21 분 소요2026년 3월 2일