피드로 돌아가기
GLM-5.2 open agent benchmark: 22% Less Tool Failure
Dev.toDev.to
AI/ML

GLM-5.2 도입으로 Multi-step Tool Use 성공률 22% 향상

GLM-5.2 open agent benchmark: 22% Less Tool Failure

Umair Bilal2026년 6월 25일11intermediate

Context

Open LLM 기반의 AI Agent 구축 시 Multi-step Tool Use 과정에서 발생하는 API Hallucination과 Parameter 타입 불일치 문제 직면. 특히 Mixtral 8x7B 모델에서 복잡한 체인 작업 수행 시 도구 호출 순서 누락 및 정의되지 않은 함수 생성 등 예측 불가능한 동작 발생.

Technical Solution

  • JSON Tool Schema에 대한 심층적인 파싱 능력을 통해 Tool Description 컨텍스트를 정확히 반영하는 구조 채택
  • 모델의 창의성을 배제하고 정의된 Function Name을 엄격하게 준수하는 Deterministic Output 중심 설계
  • String, Number 등 Parameter Type 정의를 정확히 준수하여 API 호출 시의 Type Mismatch 오류 원천 차단
  • Ollama 기반 로컬 배포 환경 구축을 통한 Inference 레이어와 Node.js Backend 간의 API 추상화
  • Temperature 0.1 및 top_p 0.9 설정을 통한 Token Generation의 엄격성 확보 및 출력 일관성 유지

1. Tool Use 전용 LLM 설정 시 Temperature를 0~

0.1로 낮추어 결정론적 출력 유도

2. Tool Definition 단계에서 상세한 Description 필드를 제공하여 모델의 컨텍스트 이해도 향상

3. Parameter Type 정의를 엄격히 규정하고, 모델의 타입 준수 여부를 검증하는 유효성 검사 레이어 추가

원문 읽기