Kimi 2.6 도입으로 Baseline 75% 달성 및 Skill Uplift 17.2pp 유지

Evaluating Kimi 2.5 vs Kimi 2.6: What happens to agent skills when the model gets smarter?

Tessl2026년 6월 21일5분intermediate

AI 요약

Context

LLM 모델 성능 향상에 따라 기존에 설계한 Agent Skill의 유지 필요성과 효율성을 검증해야 하는 상황 발생. 모델의 기본 능력이 향상됨에 따라 일부 Skill이 Redundant해지거나 Context Budget을 낭비하는 병목 지점 파악이 필요함.

Technical Solution

Tessl Evaluation Harness를 통한 동일 21개 Skill 및 100개 Paired Scenario 기반의 교차 검증 설계
Baseline(Skill 미적용)과 With-skill(Skill 적용) 상태를 구분하여 Model Native 성능과 Skill 기여도를 정밀 분리
Claude Sonnet 4.5를 Scenario Generator 및 Weighted-checklist Grader로 활용하여 평가 객관성 확보
모델 업그레이드(K2.5 → K2.6)에 따른 Skill별 Uplift Delta 분석을 통해 불필요한 Skill 제거 및 최적화 수행
Ecosystem-specific Tool call과 Verifiable Behavior(CLI, API) 간의 Skill 전이 효율성 차이 분석

실천 포인트

- 모델 업데이트 시 Baseline 성능을 재측정하여 Redundant Skill 식별 및 Context Budget 최적화 - 단순 지침보다 실제 API Shape나 CLI Flag 등 검증 가능한 동작 중심의 Skill 설계 우선순위 배정 - 모델 교체 시 성능 변동폭을 측정하기 위해 Baseline과 With-skill의 Delta 값 추적 체계 구축

태그

#Agent Skill #LLM Evaluation #Baseline Performance #Uplift Analysis #Context Budget

원문 읽기