피드로 돌아가기
Open-source LLMs as LangChain Agents
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face가 오픈소스 LLM을 ReAct 에이전트 프레임워크로 구현하여 Mixtral-8x7B가 GPT-3.5를 벤치마크에서 초과 달성

Open-source LLMs as LangChain Agents

2024년 1월 24일10intermediate

Context

기존 LLM은 논리, 계산, 검색 같은 기본 작업에서 성능이 떨어지며, 약한 도메인(예: 수학)에서도 모든 계산을 스스로 수행하려 한다. 이를 극복하기 위해 LLM이 외부 도구를 호출할 수 있는 에이전트 시스템이 필요하다.

Technical Solution

  • ReAct 에이전트 구현: Reasoning과 Acting을 연결한 프롬프트 기반 접근으로 모델이 'Thought' → 'Action' → 'Observation' 사이클을 반복하며 최종 답변 도출
  • 도구 호출 메커니즘: LLM 출력에서 'Final Answer:' 문자열을 감지하여 종료하거나, JSON 형식 도구 호출(action_name, action_input)을 파싱하여 실행
  • LangChain ChatHuggingFace 클래스 통합: Hugging Face 모델을 LangChain 에이전트 워크플로우와 직접 연결
  • smolagents 라이브러리 출시: 오픈소스 에이전트 시스템 구축을 위한 최소화된 라이브러리 제공
  • 벤치마크 평가: GAIA 데이터셋과 GSM8K를 활용하여 Mixtral-8x7B, Llama2-70b, Zephyr-7b, GPT-3.5, GPT-4 성능 비교

Impact

  • Mixtral-8x7B가 벤치마크에서 GPT-3.5를 초과 달성 (구체적 점수 수치는 0-100% 척도로 변환되었으나 절대값 미기재)
  • GSM8K에서 Mixtral-8x7B가 5-shot 시에 57.6%에서 에이전트 시스템 적용 시 73% 달성 (영점샷, 20개 질문 기준)
  • GPT-4의 GSM8K 성능이 5-shot CoT 프롬프팅에서 92%에서 계산기 도구 추가 시 95% 달성
  • Mixtral의 GAIA 벤치마크에서 부정확한 도구 호출 형식으로 인한 실패율 10%

Key Takeaway

오픈소스 LLM은 ReAct 에이전트 패턴으로 외부 도구를 체계적으로 호출하면 대형 모델 수준의 추론 성능을 달성할 수 있으며, 특히 Mixtral은 함수 호출과 작업 계획 기술에 대한 파인튜닝을 통해 더욱 향상될 여지가 있다.


수학 계산이나 정보 검색이 필요한 LLM 애플리케이션 개발 시, ReAct 프롬프트 패턴(Thought → Action with JSON → Observation 루프)을 Mixtral-8x7B 같은 오픈소스 모델에 적용하면 GPT-

3.5 수준의 에이전트 성능을 얻을 수 있으며, 도구 호출 형식 오류를 줄이기 위해 파인튜닝을 추가로 수행할 수 있다.

원문 읽기