Gemini-3-Flash 기반 CLI Agent의 TerminalBench 고득점 달성

Gemini-3-Flash: My ai agent benchmark terminalbench Win & 3 Fixes

Umair Bilal2026년 4월 28일10분intermediate

AI 요약

Context

이론적 Token 수치와 실제 도구 활용 능력 사이의 간극으로 인한 Agent 성능 저하 발생. 특히 복잡한 CLI 환경에서 Tool Call 오류 및 API 무응답 등의 저수준 디버깅 이슈가 주요 병목으로 작용함.

Orchestrator-Tool Registry-State Manager로 분리된 Lean Node.js 아키텍처 설계를 통한 복잡도 제어
Node.js child_process 기반의 Shell Command 래핑을 통한 시스템 인터랙션 구현
stderr를 성공 응답의 일부로 반환하여 모델이 직접 오류를 분석하고 수정하는 Self-Debugging 루프 구축
System Instruction 내 단계별 사고(Step-by-step) 강제 및 Tool-use 전용 Few-Shot Examples 적용을 통한 Hallucination 최소화
In-memory State 관리를 통한 벤치마크 실행 효율 최적화 및 대화 맥락 유지

실천 포인트

1. 모델이 도구 실행 실패 시 스스로 복구할 수 있도록 stderr 내용을 명확하게 전달하는가?

2. 도구 호출의 정확도를 높이기 위한 엣지 케이스 포함 Few-Shot Examples를 충분히 제공했는가?

3. 프레임워크 오버헤드를 줄이기 위해 핵심 로직(Orchestration)과 실행 도구(Tool Registry)를 분리했는가?

태그