피드로 돌아가기
Dev.toAI/ML
원문 읽기
GPT-5.5: From-scratch 재학습 통한 Agentic Reasoning 및 Terminal-Bench 82.7% 달성
OpenAI Just Released GPT-5.5. Here's What It Actually Does (and What It Costs You)
AI 요약
Context
GPT-5.x 시리즈의 기존 Base Architecture가 가진 Multi-step Reasoning의 취약함과 잦은 개입 필요성이라는 한계 노출. 복잡한 태스크 수행 시 일관성 유지 부족으로 인한 엔지니어링 병목 현상 발생.
Technical Solution
- 기존 아키텍처의 반복적 업데이트를 탈피한 From-scratch 모델 재학습으로 근본적인 Reasoning 체계 변경
- Context Window를 최대 920K tokens까지 확장하여 다중 파일 및 장기 태스크의 Context 유지 능력 강화
- Terminal-Bench 기반의 Command-line Workflow 최적화로 Shell Scripting 및 Container Orchestration 신뢰도 확보
- Codex와 Browser 확장 결합을 통한 Web App 상호작용 및 시각적 피드백 기반의 Iterative Task 수행 구조 설계
- Cached Input Tokens 도입을 통해 빈번하게 재사용되는 System Prompt 및 Repo Context의 처리 비용 90% 절감
Impact
- Terminal-Bench 2.0 성능 75.1%에서 82.7%로 향상
- OSWorld-Verified 자율 운영 능력 75.0%에서 78.7%로 개선
- GDPval(지식 노동) 84.9% 및 Tau2-bench(CS 워크플로우) 98.0% 달성
- Finance 팀의 K-1 세무 양식 검토 작업 기간을 전년 대비 2주 단축
Key Takeaway
단순한 파라미터 튜닝보다 Base Architecture의 전면 재설계가 복잡한 추론 체계(Agentic Workflow) 구축에 결정적 영향을 미침을 시사.
실천 포인트
- 고부하/장기 추론 태스크는 GPT-
5.5로, 단순 쿼리는 GPT-
5.4-mini로 분기하는 Tiered Routing 전략 수립 - 반복 호출되는 Tool Schema 및 Repo Context를 Cached Input Tokens로 설정하여 비용 최적화 수행 - Agentic Coding 도입 시 단순 코드 생성이 아닌 구현-디버깅-테스트-검증의 Continuous Loop 설계 검토