피드로 돌아가기
Spent yesterday reading the ICLR paper everyone in the agent space is going to be quoting for the next year.
Dev.toDev.to
AI/ML

Reasoning RL로 인한 Tool Hallucination 증폭 및 Runtime 검증 기반 해결책

Spent yesterday reading the ICLR paper everyone in the agent space is going to be quoting for the next year.

Harsh Mathur2026년 5월 1일1advanced

Context

Agent의 신뢰성 향상을 위해 Reasoning 능력을 강화했으나 오히려 존재하지 않는 Tool을 생성하는 Hallucination 현상 발생. Reasoning RL 성능 향상이 Task 성공률과 Tool 생성 오류를 동시에 증가시키는 정비례 관계 확인.

Technical Solution

  • 모델 지능 향상 중심의 접근 방식에서 Runtime 검증 중심의 아키텍처로 전환
  • Call Site 단계에서 Strict Tool Schemas를 적용하여 호출 유효성을 강제하는 구조 설계
  • Hard Refusal을 First-class Outcome으로 정의하여 정답 없는 상황에서의 거절 메커니즘 구축
  • Graceful Decline 수행 시 보상을 부여하는 Evaluation Metric 설계 및 최적화
  • 모델의 추론 체인 깊이보다 Tool 호출의 정확성과 거절 판단력에 우선순위를 둔 설계 전략 채택

- Tool 호출 API의 Schema Validation 로직을 Runtime에 엄격하게 구현했는지 확인 - 모델이 '할 수 없음'을 명시적으로 선언했을 때의 보상 체계가 RLHF/DPO에 반영되었는지 검토 - 단순 Task 성공률 외에 Tool Hallucination 발생률을 측정하는 별도의 Evaluation Pipeline 구축

원문 읽기