최대 60% 토큰 절감 및 SWE-Bench Pro 51.2% 달성한 고효율 코딩 모델

MAI-Code-1-Flash

neo2026년 6월 3일13분advanced

AI 요약

Context

기존 코딩 LLM의 과도한 토큰 소비와 지연 시간으로 인한 개발 생산성 저하 문제 발생. 벤치마크 최적화 중심 설계보다 실제 개발자 워크플로우와 시스템 상호작용 능력을 갖춘 가벼운 모델의 필요성 증대.

Technical Solution

GitHub Copilot 하네스 기반 직접 학습을 통한 실제 도구 및 시스템 상호작용 최적화
작업 난도에 따라 추론 예산을 동적으로 할당하는 적응형 응답 길이 제어 로직 도입
학습-평가-생산 환경의 일치화를 통한 오프라인 개선 지표와 실제 품질 간 간극 제거
텔레메트리 기반의 실제 소프트웨어 엔지니어링 작업 및 리팩터링 데이터셋 활용
단순 요청에는 간결하게, 복잡한 작업에는 심층 분석을 수행하는 라우팅 구조 설계

Impact

SWE-Bench Pro 통과율 51.2% 기록으로 Claude Haiku 4.5(35.2%) 대비 16포인트 우위
SWE-Bench Verified 기준 최대 60% 적은 토큰 사용량으로 고난도 문제 해결
적대적 추론 벤치마크에서 85.8%의 조정 정확도 달성
IF Bench 정밀 지시 따르기 부문에서 Claude Haiku 4.5 대비 +28.9 성능 향상

Key Takeaway

특정 도구의 생산 환경(Harness)과 학습 환경을 일치시킴으로써 벤치마크 점수가 아닌 실질적 Agentic Workflow 성능을 확보하는 설계 전략이 유효함.

실천 포인트

- 고복잡도 작업은 대형 모델이 설계하고, 단순 실행 및 탐색 작업은 경량 모델에 위임하는 위상 정렬 작업 그래프(Topologically Sorted Task Graph) 구조 검토 - LLM 도입 시 단순 정확도 외에 토큰 대비 수익(Return on Token)과 추론 예산 효율성 지표 설정 - LLM의 암기 기반 응답을 배제하기 위해 Inverted Classics 등 적대적 시나리오를 통한 추론 능력 검증

태그

#In-Harness Training #Token Efficiency #LLM #Agentic Workflow #SWE-bench

원문 읽기