피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Hugging Face 연구팀이 CodeAgent에 JSON 구조화 출력을 강제해 마크다운 파싱 에러를 제거하고 GAIA·MATH·SimpleQA·Frames 벤치마크에서 2~7% 성능 향상 달성
CodeAgents + Structure: A Better Way to Execute Actions
AI 요약
Context
기존 CodeAgent는 마크다운에서 Python 코드를 추출할 때 불완전한 코드 블록 포매팅, 중복된 코드 블록 등으로 파싱 실패가 발생했다. 15,724개 에이전트 트레이스 분석 결과 파싱 문제가 실제로 성능 저하를 야기하고 있었다.
Technical Solution
- CodeAgent 출력을 JSON 구조로 강제: thoughts 필드와 code 필드를 분리하여 LLM이 명시적인 추론 후 코드를 생성하도록 제약
- 마크다운 파싱 제거: 정규표현식 기반 마크다운 추출 대신 JSON 파서를 사용해 파싱 실패율 제거
- 세 가지 에이전트 패러다임 비교: Traditional JSON Agent(사전정의 도구 호출), CodeAgent(임의의 Python 코드 생성), Structured CodeAgent(JSON 형식의 CodeAgent) 구현
- OpenAI·Claude·Qwen 모델에 대한 벤치마크 실행: GAIA, MATH, SimpleQA, Frames 데이터셋에서 95% 신뢰도 구간 포함한 정확도 측정
- Hugging Face smolagents에 구조화 생성 지원 추가: 여러 추론 제공자(provider)별로 구조화 생성 지원 여부 문서화
Impact
- OpenAI 모델: 추론 집약적 작업에서 구조화 출력으로 가장 큰 성능 향상
- Claude 3.7 Sonnet: 구조화 출력으로 특히 강한 성능 향상
- 평균 성능 향상: 2~7 퍼센트포인트
Key Takeaway
구조화된 출력은 단순한 파싱 안정성 개선을 넘어 명시적 추론을 강제함으로써 에이전트가 행동 전에 사고(thinking)과정을 명확히 하도록 유도한다. 이는 코드의 유연성을 유지하면서 신뢰성을 동시에 확보하는 설계 패턴이다.
실천 포인트
Python 코드를 생성하는 LLM 에이전트 시스템을 구축할 때 마크다운 코드 블록 추출 대신 JSON 구조화 출력(thoughts + code 필드)을 강제하면 파싱 에러를 완전히 제거하고 벤치마크상 2~7% 성능 향상을 기대할 수 있다.