Cursor Composer 2.5, Cursor 내 가장 많이 선택받는 모델로 등극 — 10x 사용량 보너스

Targeted RL 기반 Composer 2.5, Opus 4.7급 성능과 1/10 비용 달성

princox2026년 5월 20일3분advanced

AI 요약

Context

IDE wrapper 수준의 서비스에서 벗어나 도메인 특화 성능을 확보하기 위한 자체 모델 고도화 추진. 기존 Frontier 모델 의존 시 발생하는 높은 추론 비용과 Long-horizon 작업에서의 신뢰성 저하 문제를 해결해야 하는 상황.

Technical Solution

Kimi K2.5 오픈소스 모델을 베이스로 채택하여 기본 성능 확보 및 개발 효율 증대
전체 컴퓨트의 85%를 자체 RL 파이프라인 및 Post-training에 집중 투입한 리소스 최적화
Composer 2 대비 25배 많은 Synthetic coding tasks를 생성하여 학습 데이터 밀도 강화
단일 Reward 방식의 한계를 극복하기 위해 텍스트 피드백 기반 Targeted RL 도입
Tool call 오류 지점에 직접 힌트를 주입하여 Credit assignment 정밀도를 높인 구조 설계
Vertical RL을 통해 Raw scale의 한계를 극복하고 코딩 특화 성능을 극대화한 전략 수립

실천 포인트

- LLM 도입 시 범용 모델의 성능 수치보다 실제 사용 환경(Default setting)에서의 벤치마크 검증 필요 - 복잡한 워크플로우 최적화 시 단순 결과 보상보다는 단계별 피드백을 통한 Credit assignment 정밀화 검토 - 비용 효율화를 위해 오픈소스 베이스 모델에 도메인 특화 Post-training을 적용하는 전략 고려

태그

#Targeted RL #Synthetic Data #Credit Assignment #Post-training #Agentic Coding

원문 읽기