피드로 돌아가기
Hacker NewsAI/ML
원문 읽기
LLM Over-Editing 측정 및 RL을 통한 Minimal Edit 구현
Coding Models Are Doing Too Much
AI 요약
Context
AI 코딩 도구가 단순 버그 수정 요청에도 함수 전체를 재작성하는 Over-Editing 문제 발생. 이는 Code Review 단계의 병목을 심화시키며, 테스트 통과 여부와 무관하게 코드베이스의 구조적 일관성을 저해하는 Brown-field 개발의 핵심 리스크로 작용.
Technical Solution
- BigCodeBench 기반 400개 문제에 연산자 반전 및 불리언 값 변경 등 Programmatic Corruption을 적용하여 정밀한 Ground Truth 생성
- 단순 문자열 비교가 아닌 Python Tokenizer 기반의 Token-level Levenshtein Distance를 도입하여 구문론적 변경 사항만 정밀 측정
- 모델 출력물과 Ground Truth를 모두 오염된 입력값(Corrupted Input)과 대조하여 불필요한 수정량을 수치화하는 메트릭 설계
- Reasoning 모델의 Instruction Following 능력을 활용해 원본 코드 유지 지침을 부여하는 Prompt Steering 적용
- 일반 코딩 성능 저하 없이 편집 충실도를 높이기 위해 Reinforcement Learning(RL)을 통한 모델 파인튜닝 수행
- Qwen3 4B 및 14B 모델을 통해 RL 기반의 Faithful Editor 구현 가능성을 검증
실천 포인트
- AI 수정 제안 적용 시 Pass@1 지표 외에 Diff 규모를 확인하는 Review 프로세스 구축 - Reasoning 모델 사용 시 'preserve the original code'와 같은 최소 수정 제약 조건을 Prompt에 명시 - Brown-field 프로젝트에서는 기능적 정답보다 구조적 최소 변경(Minimal Edit)을 우선순위로 설정
태그