Open CoT Leaderboard가 Chain-of-Thought 프롬프팅의 정확도 향상도(Δ = CoT 적용 시 정확도 - 미적용 시 정확도)를 측정해 LLM 선택 기준을 수립

Introducing the Open Chain of Thought Leaderboard

2024년 4월 23일12분intermediate

AI 요약

Context

기존 성능 기반 벤치마크는 모델이 훈련 데이터에 포함된 정답을 암기했는지, 아니면 실제 추론 능력이 있는지 구분하지 못한다. Chain-of-Thought(단계별 추론) 프롬프팅은 LLM 기반 애플리케이션의 정확도와 설명 가능성을 개선할 수 있지만, 모델마다 효과가 크게 다르다.

Technical Solution

평가 메트릭을 절대 정확도 대신 정확도 향상도(Δ)로 변경: CoT 적용 시 정확도에서 미적용 시 정확도를 뺀 값만 점수 산정
기준선 평가에 loglikelihood 정확도 사용: 다중선택형 문제에서 CoT 미적용 시 모델 성능 측정
AGIEval 벤치마크 기반의 6개 추론 작업 선정: LogiQA, LSAT-AR, LSAT-LR, LSAT-RC, SAT-Math, SAT-EBRW 포함
모듈식 프롬프트 체인으로 CoT 생성 구현: Classic("Let's think step by step" 명령) 및 Reflect(일반적 관점에서 먼저 반성 후 단계별 해결) 2가지 전략 제공
다중선택형 프롬프트 템플릿 표준화: Passage → Question → 선택지 A/B/C... → Reasoning(CoT 적용 시만) → Answer 순서로 통일

Key Takeaway

Chain-of-Thought 프롬프팅의 실제 효과는 모델마다 다르므로, 정답 암기 여부와 무관하게 추론 능력만 비교하는 메트릭 설계가 신뢰할 수 있는 모델 선택 기준을 제공한다.

실천 포인트

LLM 기반 애플리케이션 개발 시 절대 정확도 점수가 높은 모델보다, Chain-of-Thought 적용 시 정확도 향상도(Δ)가 큰 모델을 선택하면 실제 추론 능력에 기반한 신뢰도 높은 의사결정이 가능하다.

태그

#Chain-of-Thought #Benchmark #Prompting #LLM #Evaluation

원문 읽기