Hugging Face BlogAdyen과 Hugging Face가 450개 이상의 실제 데이터 분석 작업으로 구성된 DABstep 벤치마크를 개발해 AI 에이전트의 다단계 추론 능력을 평가DABStep: Data Agent Benchmark for Multi-step ReasoningAI/MLintermediate39 분 소요2025년 2월 4일