피드로 돌아가기
ScarfBench: Benchmarking AI Agents for Enterprise Java Framework Migration
Hugging Face BlogHugging Face Blog
AI/ML

행동 검증 기반 Java 프레임워크 마이그레이션 벤치마크 ScarfBench 공개

ScarfBench: Benchmarking AI Agents for Enterprise Java Framework Migration

2026년 6월 30일5advanced

Context

엔터프라이즈 Java 애플리케이션의 프레임워크 마이그레이션은 단순 코드 변환을 넘어 빌드 시스템 및 런타임 의존성 해결이 필수적인 고비용 작업임. 기존 벤치마크는 단순 코드 생성 능력에 치중하여 실제 배포 가능 여부와 동작 보존 여부를 검증하는 데 한계가 있음.

Technical Solution

  • Spring, Jakarta EE, Quarkus 간 상호 마이그레이션을 평가하는 Self-Contained Application Refactoring 구조 설계
  • 'Compile → Deploy → Behavioral Test'로 이어지는 단계별 검증 파이프라인을 통한 실질적 현대화 품질 측정
  • 소스 코드 변환 외에 Dependency Injection, Persistence Configuration, Framework Descriptor 등 설정 영역의 정밀 분석 수행
  • 레이어 간 방문 빈도 분석을 통한 iterative dependency-resolution 과정의 정량적 모델링
  • Docker 캐시 및 Maven Wrapper 등 인프라 환경 변수가 마이그레이션 성공률에 미치는 영향 평가

Impact

  • 약 151K 라인의 코드와 1,331개의 전문가 작성 테스트를 포함한 204개 마이그레이션 태스크 구성
  • 최상위 AI 에이전트의 Behavioral Success Rate가 10% 미만임을 확인하여 단순 컴파일 성공과 실제 동작 보존 간의 간극 증명
  • Claude Code 기준, 30개 앱 중 29개를 성공으로 보고했으나 실제 빌드 성공은 22개에 그친 과신(Overconfidence) 경향 포착

- AI 기반 마이그레이션 시 에이전트의 자가 진단 결과 대신 독립적인 빌드/테스트 검증 파이프라인 구축 - 코드 변환보다 Configuration 및 Infrastructure 의존성 해결에 더 많은 리소스 배정 - 단순 소스-투-소스 변환이 아닌 Configuration ↔ Web ↔ Service ↔ Database로 이어지는 반복적 의존성 해결 프로세스 적용

원문 읽기