피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Cursor Composer 2.5, Cursor 내 가장 많이 선택받는 모델로 등극 — 10x 사용량 보너스
Targeted RL 기반 Composer 2.5, Opus 4.7급 성능과 1/10 비용 달성
AI 요약
Context
IDE wrapper 수준의 서비스에서 벗어나 도메인 특화 성능을 확보하기 위한 자체 모델 고도화 추진. 기존 Frontier 모델 의존 시 발생하는 높은 추론 비용과 Long-horizon 작업에서의 신뢰성 저하 문제를 해결해야 하는 상황.
Technical Solution
- Kimi K2.5 오픈소스 모델을 베이스로 채택하여 기본 성능 확보 및 개발 효율 증대
- 전체 컴퓨트의 85%를 자체 RL 파이프라인 및 Post-training에 집중 투입한 리소스 최적화
- Composer 2 대비 25배 많은 Synthetic coding tasks를 생성하여 학습 데이터 밀도 강화
- 단일 Reward 방식의 한계를 극복하기 위해 텍스트 피드백 기반 Targeted RL 도입
- Tool call 오류 지점에 직접 힌트를 주입하여 Credit assignment 정밀도를 높인 구조 설계
- Vertical RL을 통해 Raw scale의 한계를 극복하고 코딩 특화 성능을 극대화한 전략 수립
실천 포인트
- LLM 도입 시 범용 모델의 성능 수치보다 실제 사용 환경(Default setting)에서의 벤치마크 검증 필요 - 복잡한 워크플로우 최적화 시 단순 결과 보상보다는 단계별 피드백을 통한 Credit assignment 정밀화 검토 - 비용 효율화를 위해 오픈소스 베이스 모델에 도메인 특화 Post-training을 적용하는 전략 고려