26M 파라미터 기반 초경량 Tool Calling 전용 모델 Needle의 효율적 아키텍처

Needle and the Return of the Tiny Specialist Model

Captain Jack Smith2026년 5월 18일4분advanced

AI 요약

Context

범용 LLM을 통한 단순 Routing 작업 수행 시 발생하는 높은 Latency와 비용, 개인정보 노출 위험이 병목 지점으로 작용. 모든 단순 기능 호출 요청을 클라우드 모델로 처리하는 비효율적인 구조적 한계 존재.

Gemini 3.1을 Distill 하여 26M 파라미터 규모의 Simple Attention Network로 최적화
지식 저장용 Feed Forward Network를 Encoder에서 제거하여 모델 경량화 및 추론 속도 향상
12개 Encoder Layer와 8개 Decoder Layer, 512차원 Model Width를 가진 Encoder-Decoder 구조 설계
추론 시 Prompt에 Tool List와 User Query를 직접 제공하여 외부 지식 의존도를 낮춘 구조 채택
2,000억 개의 토큰으로 Pre-training 후 20억 개의 Single Shot Function Calling 데이터셋으로 Post-training 수행
입력된 의도를 분석하여 유효한 JSON 형식의 Argument를 출력하는 매칭 및 구조화 작업에 집중한 설계

실천 포인트

1. 단순 라우팅이나 함수 호출 작업에 과도한 파라미터 모델을 사용 중인지 검토

2. 모델이 저장해야 할 지식과 추론 시 제공되는 컨텍스트를 분리하여 아키텍처 최적화 가능성 확인

3. On-device 배포를 위해 FFN 계층 제거 등 태스크 특화 경량 구조 도입 고려

4. 전용 모델 도입 시 실제 환경의 모호한 입력값과 Adversarial Prompt에 대한 정밀한 평가셋 구축

태그