Agent loop 구동을 위한 임계치 'Capability Floor' 발견 및 모델 크기별 최적 매칭 전략

How Small Can an Agent Model Get? The Nemotron Floor

Tessl2026년 6월 27일9분intermediate

AI 요약

Context

단순히 비용과 성능의 선형적 trade-off를 고려하던 기존 LLM 선택 방식의 한계 분석. 특정 모델 크기 이하에서는 Agent의 Act-Observe-Decide 루프 자체가 불가능한 'Capability Floor' 존재 확인.

Technical Solution

모델 파라미터 규모에 따른 Agentic Workflow 수행 능력의 비선형적 임계값 정의
Nano 12B 모델의 제로 스코어를 통한 최소 구동 가능 하한선 식별
Nano 30B 모델을 통한 Narrow-scope 및 Single-file 변경 작업의 비용 효율적 처리 구조 설계
Super 120B 모델을 통한 Multi-step 및 Long-horizon 태스크의 신뢰성 확보 전략 수립
Skill(가이드라인) 제공을 통한 Instruction-following 능력의 증폭제(Multiplier) 역할 검증
모델 규모 확장을 통한 Baseline 성능 상향으로 Skill 적용을 위한 기초 체력 확보

실천 포인트

- 태스크가 단일 API 호출이나 단순 문서 검색 위주인 경우 Nano 30B 우선 검토 - 복잡한 멀티 스텝 추론 및 높은 첫 시도 성공률이 필수적인 경우 Super 120B 채택 - 모델 교체 전 실제 업무 시나리오를 통해 해당 모델이 'Capability Floor'를 넘었는지 우선 검증 - 비용 최적화 전 '최소 가동 가능 모델'의 하한선을 먼저 측정하는 프로세스 구축

태그

#Open-weight Model #Instruction following #Capability Floor #Inference Cost #Agentic Workflow

원문 읽기