피드로 돌아가기
Dev.toAI/ML
원문 읽기
26M 파라미터 기반 초경량 Tool Calling 전용 모델 Needle의 효율적 아키텍처
Needle and the Return of the Tiny Specialist Model
AI 요약
Context
범용 LLM을 통한 단순 Routing 작업 수행 시 발생하는 높은 Latency와 비용, 개인정보 노출 위험이 병목 지점으로 작용. 모든 단순 기능 호출 요청을 클라우드 모델로 처리하는 비효율적인 구조적 한계 존재.
Technical Solution
- Gemini 3.1을 Distill 하여 26M 파라미터 규모의 Simple Attention Network로 최적화
- 지식 저장용 Feed Forward Network를 Encoder에서 제거하여 모델 경량화 및 추론 속도 향상
- 12개 Encoder Layer와 8개 Decoder Layer, 512차원 Model Width를 가진 Encoder-Decoder 구조 설계
- 추론 시 Prompt에 Tool List와 User Query를 직접 제공하여 외부 지식 의존도를 낮춘 구조 채택
- 2,000억 개의 토큰으로 Pre-training 후 20억 개의 Single Shot Function Calling 데이터셋으로 Post-training 수행
- 입력된 의도를 분석하여 유효한 JSON 형식의 Argument를 출력하는 매칭 및 구조화 작업에 집중한 설계
실천 포인트
1. 단순 라우팅이나 함수 호출 작업에 과도한 파라미터 모델을 사용 중인지 검토
2. 모델이 저장해야 할 지식과 추론 시 제공되는 컨텍스트를 분리하여 아키텍처 최적화 가능성 확인
3. On-device 배포를 위해 FFN 계층 제거 등 태스크 특화 경량 구조 도입 고려
4. 전용 모델 도입 시 실제 환경의 모호한 입력값과 Adversarial Prompt에 대한 정밀한 평가셋 구축