피드로 돌아가기
Dev.toAI/ML
원문 읽기
코드 생성 능력과 Agent Tool Calling 성능의 불일치 증명 및 50%의 한계 확인
I Tested 6 Local Models on Real Agent Tasks. The Best Scored 50%.
AI 요약
Context
코드 벤치마크 고득점 모델이 실제 Agent Task에서 성능이 급락하는 현상 발생. LLM의 Python 생성 능력과 Tool Protocol 준수 능력이 서로 다른 차원의 역량임을 확인한 사례.
Technical Solution
- 모델 출력 형식과 Framework 간 간극 해결을 위한 100라인 규모의 Translation Proxy 설계
- Local Model의 텍스트 기반 tool_call 블록을 OpenAI native 포맷으로 변환하는 브릿지 로직 구현
- 단일 도구 호출, 다중 도구 선택, Tool_choice 제약 준수, 도구 체이닝 등 6가지 Pass/Fail 차원의 Agent Readiness Benchmark 구축
- 모델 크기보다 아키텍처 최적화가 Tool Calling 성능에 더 큰 영향을 미침을 검증
- Code Quality 벤치마크와 Agent Task 수행 능력을 분리하여 측정하는 평가 파이프라인 도입
Impact
- SmolLM3-3B: Code Quality 93.3% 대비 Agent Task 50% 기록
- Phi-4-mini: Code 90% 대비 Agent Task 17%로 급감
- Qwen2.5-Coder-14B 및 Llama 3.1-8B: 높은 코드 성능에도 불구하고 Tool Calling 성공률 0% 기록
Key Takeaway
Parameter Count의 증가가 반드시 Agent의 프로토콜 준수 능력 향상으로 이어지지 않음을 입증. 도구 호출 역량은 코드 생성 능력과 상관관계가 낮으므로 별도의 전용 벤치마크를 통한 검증이 필수적임.
실천 포인트
- LLM 선정 시 Code Benchmark 수치만 믿지 말고 실제 Tool Calling 테스트를 병행할 것 - 모델 출력 포맷 불일치로 인한 성능 저하를 막기 위해 Translation Proxy 레이어 검토 - Agent 설계 전 모델의 Tool Selection 및 Chaining 가능 여부를 먼저 검증하는 프로세스 구축