피드로 돌아가기
Dev.toAI/ML
원문 읽기
SDLC 전 과정을 모사한 5단계 Role-based AI 코딩 벤치마크 Ship-Bench 설계
An AI Benchmark That Tests Real Coding Workflows
AI 요약
Context
합성 데이터 기반의 기존 벤치마크가 실제 프로젝트 워크플로우를 예측하지 못하는 한계 발생. 단일 모델의 코딩 능력을 넘어 기획부터 리뷰까지 이어지는 전체 소프트웨어 개발 생명주기(SDLC) 검증 체계의 부재.
Technical Solution
- SDLC의 핵심 역할을 Architect, UX Designer, Planner, Developer, Reviewer 5개 단계로 분리한 Role-based Pipeline 설계
- 요구사항의 모호성을 제거하고 의사결정 능력을 측정하기 위해 MVP 이상의 기능셋을 포함한 Product Brief 기반의 입력 구조 채택
- 전 단계의 산출물이 다음 단계의 입력값으로 활용되는 Handoff 메커니즘을 통해 단계 간 컨텍스트 전달 능력 검증
- 지식 기반 앱(Knowledge Base App)을 타겟 도메인으로 선정하여 구현의 일관성과 설계의 자율성 사이의 Trade-off 최적화
- 정량적 루브릭 기반의 LLM Judge와 정성적 판단을 수행하는 Human Judge를 결합한 Hybrid Evaluation Framework 구축
- 최신 프레임워크 리서치 능력을 측정하기 위해 Non-functional Requirements 및 확장성 목표를 제약 사항으로 부여
실천 포인트
- AI Agent 도입 시 단순 코드 생성 능력이 아닌 설계-계획-구현-검증으로 이어지는 Pipeline의 연결성 검토 - 모호한 요구사항을 구체적인 기술 스펙(Technical Spec)으로 변환하는 Architect 단계의 산출물 품질 정의 - LLM 평가 시 일관성 유지를 위해 상세 Scoring Criteria와 Pass/Fail Gate를 설정한 평가 자동화 체계 구축