코드 생성 능력과 Agent Tool Calling 성능의 불일치 증명 및 50%의 한계 확인

I Tested 6 Local Models on Real Agent Tasks. The Best Scored 50%.

Vilius2026년 5월 16일2분intermediate

AI 요약

Context

코드 벤치마크 고득점 모델이 실제 Agent Task에서 성능이 급락하는 현상 발생. LLM의 Python 생성 능력과 Tool Protocol 준수 능력이 서로 다른 차원의 역량임을 확인한 사례.

Technical Solution

모델 출력 형식과 Framework 간 간극 해결을 위한 100라인 규모의 Translation Proxy 설계
Local Model의 텍스트 기반 tool_call 블록을 OpenAI native 포맷으로 변환하는 브릿지 로직 구현
단일 도구 호출, 다중 도구 선택, Tool_choice 제약 준수, 도구 체이닝 등 6가지 Pass/Fail 차원의 Agent Readiness Benchmark 구축
모델 크기보다 아키텍처 최적화가 Tool Calling 성능에 더 큰 영향을 미침을 검증
Code Quality 벤치마크와 Agent Task 수행 능력을 분리하여 측정하는 평가 파이프라인 도입

Impact

SmolLM3-3B: Code Quality 93.3% 대비 Agent Task 50% 기록
Phi-4-mini: Code 90% 대비 Agent Task 17%로 급감
Qwen2.5-Coder-14B 및 Llama 3.1-8B: 높은 코드 성능에도 불구하고 Tool Calling 성공률 0% 기록

Key Takeaway

Parameter Count의 증가가 반드시 Agent의 프로토콜 준수 능력 향상으로 이어지지 않음을 입증. 도구 호출 역량은 코드 생성 능력과 상관관계가 낮으므로 별도의 전용 벤치마크를 통한 검증이 필수적임.

실천 포인트

- LLM 선정 시 Code Benchmark 수치만 믿지 말고 실제 Tool Calling 테스트를 병행할 것 - 모델 출력 포맷 불일치로 인한 성능 저하를 막기 위해 Translation Proxy 레이어 검토 - Agent 설계 전 모델의 Tool Selection 및 Chaining 가능 여부를 먼저 검증하는 프로세스 구축

태그

#Local Model #Benchmark #Tool Calling #LLM #Agentic Workflow

원문 읽기