NVIDIA가 Llama 3.3-70B Instruct와 Llama-3.3-Nemotron-Super-49B-v1.5 두 모델을 결합한 AI-Q로 DeepResearch Bench의 'LLM with Search' 카테고리 1위 달성

Measuring Open-Source Llama Nemotron Models on DeepResearch Bench

2025년 8월 4일8분intermediate

AI 요약

Context

기존 폐쇄형 LLM 기반 에이전트 스택이 장기 컨텍스트 검색, 추론, 종합 능력에서 우위를 점하고 있었으며, 개발자 접근 가능한 오픈소스 모델로는 이를 따라잡기 어려웠다.

Technical Solution

Llama 3.3-70B Instruct와 Llama-3.3-Nemotron-Super-49B-v1.5 두 모델을 병렬 구조로 결합: 전자는 구조화된 리포트 생성, 후자는 다단계 추론 담당
Llama-3.3-Nemotron-Super-49B-v1.5에 Neural Architecture Search(NAS), 지식 증류, 지도 학습 및 강화학습을 순차 적용: 도구 사용, 쿼리 계획, 반사적 추론 능력 강화
모델에 추론 ON/OFF 토글 구현: 표준 채팅 모드와 체인-오브-쏘트(chain-of-thought) 추론 모드를 시스템 프롬프트로 동적 전환 가능
할루시네이션 감지, 다중 출처 종합, 인용 신뢰성 검증, RAGAS 메트릭 등 4가지 평가 지표 도입: 각 팩트 클레임을 생성 시점에 검증
로컬 및 웹 데이터에 대한 병렬 저지연 검색 아키텍처 구현: 프라이버시, 규정 준수, 온프레미스 배포 시나리오 지원

Impact

DeepResearch Bench 'LLM with Search' 카테고리에서 40.52점 달성 (2025년 8월 기준, 완전 오픈라이선스 스택 중 1위)
49B 파라미터로 128K 토큰 컨텍스트 윈도우 지원: 단일 H100 GPU 또는 그 이하 사양에서 실행 가능

Key Takeaway

NAS, 지식 증류, 다단계 포스트트레이닝을 조합한 경량 모델이 폐쇄형 대규모 모델 수준의 에이전트 추론 성능을 달성할 수 있으며, 투명한 평가 지표 공개와 오픈라이선스 배포를 통해 재현성과 커뮤니티 신뢰를 동시에 확보할 수 있다.

실천 포인트

오픈소스 LLM 기반 RAG/에이전트 파이프라인을 구축하는 팀은 단일 대규모 모델 대신 지식 증류로 최적화된 경량 모델(49B~70B)을 역할별로 조합하고, 체인-오브-쏘트 추론과 할루시네이션 검증을 시스템 프롬프트와 평가 메트릭에 내장하면 폐쇄형 솔루션과 동등한 정확도를 H100 1대 이하 리소스로 확보할 수 있다.

태그

#Agent #Neural Architecture Search #Knowledge Distillation #RAG #LLM

원문 읽기