Hugging Face 팀이 OpenAI의 Deep Research를 오픈소스로 재현하면서 Code Agent 방식으로 JSON 기반 에이전트 대비 30% 적은 단계로 구현

Open-source DeepResearch – Freeing our search agents

2025년 2월 4일12분intermediate

AI 요약

Context

OpenAI의 Deep Research는 GAIA 벤치마크에서 67% 정확도를 달성해 GPT-4 단독 사용 시 7%와 비교해 10배 우수한 성능을 보였으나, 내부 에이전틱 프레임워크에 대한 공개 정보가 부족했다. LLM 기반 시스템의 성능은 에이전트 프레임워크 통합 여부에 따라 최대 60포인트 차이가 발생하는 수준으로 큰 영향을 받는다.

Technical Solution

Code Agent 방식 도입: JSON 기반 에이전트 대신 코드로 행동을 표현하는 방식 채택으로 30% 적은 단계 수 달성 (예: 병렬 4개 스트림 × 5개 연속 행동을 JSON은 20개 블롭으로 표현하는 반면 Code는 1단계로 표현)
LLM 선택 유연화: OpenAI의 4o, o1, o3 대신 DeepSeek R1 같은 오픈소스 LLM 지원으로 로컬 환경에서 커스터마이징 가능한 구조 구현
smolagents 프레임워크 활용: 웹 검색, PDF 문서 읽기 등 도구 사용을 체계화하고 LLM의 행동 단계를 조직화하는 에이전틱 레이어 구축
GAIA 벤치마크 기준 성능 측정: OpenAI의 결과물과 동일한 평가 지표(pass@1 평균 점수) 사용해 오픈소스 구현의 성능 검증
Vision LLM 및 도구 호출 패턴 비교: 전통적 도구 호출 방식 대비 Code Agent의 성능 비교 및 개선점 문서화

Impact

Code Agent 방식을 통해 JSON 기반 대비 30% 적은 토큰 생성
에이전틱 프레임워크 적용 시 LLM 단독 대비 최대 60포인트 성능 향상
GPT-4 단독(7%) 대비 Open-source Deep Research 구현으로 유사한 수준의 GAIA 정확도 달성 가능성

Key Takeaway

LLM의 추론 능력은 에이전틱 프레임워크에 의해 급격하게 증폭되는데, Code Agent 방식을 사용하면 JSON보다 더 간결한 액션 표현으로 토큰 효율성을 높일 수 있다. 또한 오픈소스 LLM과 에이전틱 시스템의 결합으로 폐쇄형 상용 솔루션과 동등한 성능을 로컬 환경에서 구현 가능하다.

실천 포인트

LLM 기반 에이전트 시스템을 구축하는 엔지니어는 JSON 구조 대신 Python 코드로 행동을 표현하는 Code Agent 패턴을 도입하면 동일한 기능을 30% 적은 단계로 구현할 수 있으며, 추론, 웹 검색, 도구 활용 같은 복잡한 작업 시 에이전틱 프레임워크(smolagents 등)를 통합하면 LLM 단독 사용 대비 최대 60포인트의 성능 향상을 기대할 수 있다.

태그

#Open Source #Agent Framework #Code Agent #LLM #GAIA Benchmark

원문 읽기