피드로 돌아가기
Which LLM is the best stock picker? I built a benchmark to find out.
Dev.toDev.to
AI/ML

7종 Frontier LLM의 주식 투자 의사결정 성능 검증을 위한 멀티 에이전트 벤치마크 설계

Which LLM is the best stock picker? I built a benchmark to find out.

Achal Jhawar2026년 5월 20일4advanced

Context

기존 코딩 및 수학 벤치마크의 데이터 오염과 단순 정답 도출 한계를 극복하기 위한 새로운 평가 체계 필요성 대두. 불확실성 속에서 Tool 호출, 정보 합성, 최종 의사결정 및 결과 피드백으로 이어지는 End-to-End 파이프라인 검증이 핵심 과제임.

Technical Solution

  • Macro-Screener-Analyst-Orchestrator-Constructor로 이어지는 5단계 순차적 Agent 워크플로우 설계를 통한 의사결정 분리
  • Agent의 수치 계산 오류(약 33% 발생)를 방지하기 위해 포트폴리오 계산 로직을 전담 Calculation Tool로 외부화한 설계
  • Tool Registry 기반의 권한 분리를 통해 Agent별 필요 도구만 제공하여 Context Window 최적화 및 추론 정확도 향상
  • Handler Layer에서 Retry, Rate Limit, Circuit Breaking을 처리하여 LLM이 인프라 장애가 아닌 비즈니스 로직에만 집중하는 구조 채택
  • run 단계(JSON 아티팩트 생성)와 execute 단계(주문 실행)를 엄격히 분리하여 결정 사항에 대한 감사 가능성(Auditability) 확보 및 오작동 방지
  • Fundamental, Valuation, Risk 등을 가중치 기반으로 합산하는 Composite Formula를 통해 정성적 판단을 정량적 스코어로 변환

1. LLM의 산술 계산 능력 부족을 인정하고, 정밀한 수치 계산은 반드시 전용 함수나 외부 API로 위임할 것

2. LLM의 Action 실행 전 JSON 형태의 중간 결과물을 생성하고, 이를 검증하는 별도의 실행 단계를 두어 안정성을 확보할 것

3. Agent에게 모든 도구를 제공하기보다 역할별로 Tool set을 제한하여 Hallucination을 줄이고 효율을 높일 것

4. 외부 API 호출 시 발생하는 Transient Error를 LLM이 처리하게 하지 말고, 하위 Handler Layer에서 추상화하여 처리할 것

원문 읽기