Hugging Face가 Qwen3-4B 모델에 간소화된 스캐폴딩과 Kaggle 노트북 기반 학습 데이터를 적용해 DABStep 벤치마크 어려운 과제 정확도를 2.1%에서 3.4%로 향상

Jupyter Agents: training LLMs to reason with notebooks

2025년 9월 10일12분intermediate

AI 요약

Context

현재 오픈소스 소형 LLM 모델들은 대규모 모델(Claude Sonnet 19% 정확도)에 비해 데이터 분석 작업에서 크게 뒤처지고 있다. Jupyter Notebook 환경에서 코드 실행을 통해 복잡한 데이터 과학 문제를 해결하는 에이전트 모델의 성능 개선이 필요한 상황이다.

Technical Solution

스캐폴딩 간소화: 기존 smolagents의 복잡한 구조를 약 200줄 코드로 축약하고 외부 의존성 제거, while 루프 구조로 code_execution 및 final_answer 두 가지 도구만 사용
Kaggle 노트북 기반 데이터셋 구축: 약 2TB의 Kaggle 노트북을 수집하고 BigCode 프로젝트의 중복 제거 기법으로 약 250GB으로 축약
다단계 데이터 처리 파이프라인: Datatrove를 사용한 대규모 중복 제거, 필터링, 변환 작업으로 고품질 학습 데이터 생성
Qwen3-4B-Thinking-2507 모델 파인튜닝: 4B 크기의 경량 모델에 준비된 데이터셋으로 대규모 학습 수행
Jupyter Notebook 기반 에이전트 아키텍처: 마크다운 셀과 코드 셀이 혼재된 환경에서 모델이 멀티 스텝 코드 실행 및 추론 수행

Impact

스캐폴딩 간소화 후 쉬운 과제 정확도: 44.4% → 59.7% (상승률 34.5%)
파인튜닝 후 어려운 과제 정확도: 2.1% → 3.4% (상승률 61.9%)

Key Takeaway

에이전트 모델의 성능은 모델 가중치만큼이나 스캐폴딩 구조의 정렬도 중요하며, 특정 작업에 최적화된 학습 데이터 생성 파이프라인이 소형 모델의 성능 격차를 좁히는 효과적인 방법이다.

실천 포인트

데이터 분석 에이전트를 개발하는 팀에서 소형 LLM 모델을 사용할 때, 모델에 맞춘 간소화된 스캐폴딩(200줄 수준)과 작업 관련 공개 데이터셋(Kaggle 노트북 등)을 조합해 파인튜닝하면 대규모 모델 대비 성능 격차를 30~60% 수준으로 좁힐 수 있다.

태그

#Agents #Fine-Tuning #Jupyter #Data Science #LLM

원문 읽기