7종 Frontier LLM의 주식 투자 의사결정 성능 검증을 위한 멀티 에이전트 벤치마크 설계

Which LLM is the best stock picker? I built a benchmark to find out.

Achal Jhawar2026년 5월 20일4분advanced

AI 요약

Context

기존 코딩 및 수학 벤치마크의 데이터 오염과 단순 정답 도출 한계를 극복하기 위한 새로운 평가 체계 필요성 대두. 불확실성 속에서 Tool 호출, 정보 합성, 최종 의사결정 및 결과 피드백으로 이어지는 End-to-End 파이프라인 검증이 핵심 과제임.

Macro-Screener-Analyst-Orchestrator-Constructor로 이어지는 5단계 순차적 Agent 워크플로우 설계를 통한 의사결정 분리
Agent의 수치 계산 오류(약 33% 발생)를 방지하기 위해 포트폴리오 계산 로직을 전담 Calculation Tool로 외부화한 설계
Tool Registry 기반의 권한 분리를 통해 Agent별 필요 도구만 제공하여 Context Window 최적화 및 추론 정확도 향상
Handler Layer에서 Retry, Rate Limit, Circuit Breaking을 처리하여 LLM이 인프라 장애가 아닌 비즈니스 로직에만 집중하는 구조 채택
run 단계(JSON 아티팩트 생성)와 execute 단계(주문 실행)를 엄격히 분리하여 결정 사항에 대한 감사 가능성(Auditability) 확보 및 오작동 방지
Fundamental, Valuation, Risk 등을 가중치 기반으로 합산하는 Composite Formula를 통해 정성적 판단을 정량적 스코어로 변환

실천 포인트

1. LLM의 산술 계산 능력 부족을 인정하고, 정밀한 수치 계산은 반드시 전용 함수나 외부 API로 위임할 것

2. LLM의 Action 실행 전 JSON 형태의 중간 결과물을 생성하고, 이를 검증하는 별도의 실행 단계를 두어 안정성을 확보할 것

3. Agent에게 모든 도구를 제공하기보다 역할별로 Tool set을 제한하여 Hallucination을 줄이고 효율을 높일 것

4. 외부 API 호출 시 발생하는 Transient Error를 LLM이 처리하게 하지 말고, 하위 Handler Layer에서 추상화하여 처리할 것

태그