GPT-5.5 low vs medium vs high vs xhigh: 오픈소스 저장소의 실제 작업 26개에서 본 추론 곡선

GPT-5.5 Reasoning Curve 분석: High 설정 시 비용 1.43배로 리뷰 통과율 200% 달성

xguru2026년 5월 9일19분advanced

AI 요약

Context

단순 Test Pass 여부만으로 평가하는 기존 LLM 벤치마크의 한계점을 극복하기 위해 실제 오픈소스 저장소의 PR 작업을 활용한 정밀 검증 필요성 대두. 단순 구현을 넘어 Semantic Equivalence와 유지보수 가능한 코드 품질을 확보하는 Reasoning Effort의 임계점 파악이 핵심 과제임.

Technical Solution

Test Pass 중심 평가에서 Semantic Equivalence 및 Code Review 통과율 기반의 다차원 평가 체계 도입
Low(Heuristic)에서 Medium(Domain Modeling)으로 전환하며 단순 구현에서 저장소 도메인 의미를 반영한 구조적 설계로 진화
High 설정을 통해 통합 세부 사항을 정확히 일치시키는 Planning 능력을 확보하여 실용적 성능 최적점 도출
xHigh 설정을 통한 고품질 패치 생성 가능성을 확인했으나, 과도한 코드 수정(Footprint Risk)과 비용 증가라는 Trade-off 발생
단일 벤치마크가 아닌 자체 하네스와 도메인 특화 작업 세트를 통한 추론 노력별 성능 곡선 측정
AGENTS.md 및 Rules 최적화 루프를 통해 추론 설정에 의존하지 않는 기본 출력 품질 상향 평준화 시도

실천 포인트

- 단순 테스트 통과율에 만족하지 말고 실제 사람이 작성한 패치와의 Semantic Equivalence 검증 프로세스 구축 - 비용과 품질의 균형점인 'High' 수준의 추론 설정을 기본값으로 검토하고, 극도의 정밀도가 필요한 작업에만 xHigh 적용 - LLM의 과설계 및 불필요한 코드 수정 방지를 위해 AGENTS.md 내에 범위 규율(Scope Discipline) 명시 - 전역 벤치마크 대신 실제 코드베이스의 과거 PR을 활용한 자체 평가 하네스 구축

태그

#LLM Evaluation #Trade-off Analysis #Reasoning Effort #Code Review Automation #Semantic Equivalence

원문 읽기