피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Code w/ Claude에서 발표한 모든 것들
Opus 4.7 기반 SWE-bench 87% 달성 및 Cloud Agent 자율성 극대화
AI 요약
Context
자연어 기반 앱 개발 시 단순 테스트 통과 여부만으로는 실제 사용자 요구사항 충족 여부를 판단하기 어려운 평가 체계의 한계 직면. 모델 지능 자체보다 에이전트에게 제공되는 도구, 문맥, 실행 환경의 부족이 개발 생산성의 주요 병목 지점으로 작용.
Technical Solution
- VibeBench 도입을 통한 실제 PRD 기반 앱 생성 및 브라우저 기반 자동 평가 체계 구축
- Telescope 시스템을 통한 의미 기반 실행 추적 및 롱테일 실패 사례 분류 후 PR 자동 생성 루프 설계
- AnyDev CLI 기반의 독립적 개발 환경 제공으로 서비스 구동, 상태 확인, 테스트 계정 생성 자동화
- Computer Use 기능을 통한 end-to-end 데모 녹화 기반의 기능 검증 및 코드 리뷰 효율화
- 계획-실행-복구-유지 단계의 정교한 루프 설계를 통한 긴 문맥 내 시스템 프롬프트 준수율 향상
- Agent Experience를 독립적 설계 대상으로 정의하여 에이전트의 워크플로우 병목을 추적하는 Factory 이슈 관리 체계 도입
실천 포인트
1. 단순 단위 테스트를 넘어 실제 사용자 시나리오를 검증하는 End-to-End 자동 평가 파이프라인 구축 여부 검토
2. 에이전트에게 단순 API가 아닌 독립적인 OS 환경과 CLI 도구셋을 제공하여 자율성 범위 확장
3. 모델 성능 향상에 따라 포화 상태가 된 기존 벤치마크를 폐기하고 더 높은 난이도의 평가셋으로 지속 교체