LLM Over-Editing 측정 및 RL을 통한 Minimal Edit 구현

Coding Models Are Doing Too Much

2026년 4월 22일19분intermediate

AI 요약

Context

AI 코딩 도구가 단순 버그 수정 요청에도 함수 전체를 재작성하는 Over-Editing 문제 발생. 이는 Code Review 단계의 병목을 심화시키며, 테스트 통과 여부와 무관하게 코드베이스의 구조적 일관성을 저해하는 Brown-field 개발의 핵심 리스크로 작용.

Technical Solution

BigCodeBench 기반 400개 문제에 연산자 반전 및 불리언 값 변경 등 Programmatic Corruption을 적용하여 정밀한 Ground Truth 생성
단순 문자열 비교가 아닌 Python Tokenizer 기반의 Token-level Levenshtein Distance를 도입하여 구문론적 변경 사항만 정밀 측정
모델 출력물과 Ground Truth를 모두 오염된 입력값(Corrupted Input)과 대조하여 불필요한 수정량을 수치화하는 메트릭 설계
Reasoning 모델의 Instruction Following 능력을 활용해 원본 코드 유지 지침을 부여하는 Prompt Steering 적용
일반 코딩 성능 저하 없이 편집 충실도를 높이기 위해 Reinforcement Learning(RL)을 통한 모델 파인튜닝 수행
Qwen3 4B 및 14B 모델을 통해 RL 기반의 Faithful Editor 구현 가능성을 검증

실천 포인트

- AI 수정 제안 적용 시 Pass@1 지표 외에 Diff 규모를 확인하는 Review 프로세스 구축 - Reasoning 모델 사용 시 'preserve the original code'와 같은 최소 수정 제약 조건을 Prompt에 명시 - Brown-field 프로젝트에서는 기능적 정답보다 구조적 최소 변경(Minimal Edit)을 우선순위로 설정

태그

#Instruction following #Brown-field Development #Token-level Levenshtein Distance #Reinforcement Learning #Over-Editing

원문 읽기