피드로 돌아가기
License to Call: Introducing Transformers Agents 2.0
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face가 Transformers Agents를 2.0 버전으로 업그레이드하고 ReAct 기반 반복 학습 에이전트를 추가해 Llama-3-70B-Instruct가 GPT-4 기반 에이전트를 GAIA 리더보드에서 앞지르게 함

License to Call: Introducing Transformers Agents 2.0

2024년 5월 13일9intermediate

Context

LLM은 논리, 계산, 검색 같은 특정 작업에서 자주 실패한다. 에이전트 프레임워크는 이러한 약점을 극복하기 위해 LLM이 도구를 활용하도록 하지만, 기존 agent 시스템은 복잡하고 불명확한 구조를 가지고 있었다.

Technical Solution

  • CodeAgent를 유지하면서 ReactCodeAgent와 ReactJsonAgent 두 가지 반복 학습 에이전트 추가: Thought → Action → Observation 사이클을 통해 이전 관찰에 기반해 작동
  • Tool 클래스 설계로 모듈성 확보: name, descriptions, inputs, output_type 속성을 통해 동적으로 사용 설명서 생성하고 LLM 프롬프트에 삽입
  • Toolbox 구조 도입으로 성능 최적화: 도구를 미리 인스턴스화하여 각 에이전트 초기화마다 도구 세트를 재구성하지 않도록 함
  • 에이전트 메모리 시스템 구현: 이전 도구 호출과 관찰값을 메모리에 저장하여 반복 학습 가능하도록 함
  • transformers.agents를 smolagents 독립 라이브러리로 분리: 유사한 API를 유지하면서 마이그레이션 용이하게 함

Impact

Llama-3-70B-Instruct 에이전트가 GAIA 리더보드에서 4위 달성으로 다수의 GPT-4 기반 에이전트를 상위권에서 제치고 오픈소스 카테고리의 최강자가 됨.

Key Takeaway

에이전트 프레임워크의 복잡성을 최소화된 추상화와 명확한 모듈화로 해결하면, 단순한 구조에서도 최첨단 성능을 달성할 수 있다. 반복 학습 능력(ReAct 패턴)과 미리 초기화된 도구 재사용은 복합 작업 해결과 성능 최적화를 동시에 가능하게 한다.


LLM 기반 자동화 작업을 구축하는 엔지니어는 에이전트에 SearchTool, VisualQATool, SpeechToTextTool, TextInspectorTool 같은 다중 모달 도구를 조합하면, 웹 검색, 문서 분석, 음성 변환, 이미지 분석을 통합한 멀티모달 질의 응답 시스템을 구현할 수 있다.

원문 읽기