피드로 돌아가기
Dev.toAI/ML
원문 읽기
llama3.2의 94% 정확도 달성 및 Prompting 전략의 한계 확인
I benchmarked 3 local LLMs on 50 factual questions -here's what failed
AI 요약
Context
Local LLM의 Hallucination 발생 빈도 측정 및 신뢰성 검증을 위한 벤치마크 필요성 증대. Ollama 기반의 완전 로컬 환경에서 모델별 factual QA 성능 및 추론 지연 시간의 상관관계 분석.
Technical Solution
- 5개 카테고리 50개 factual question을 활용한 정량적 Accuracy 평가 체계 구축
- llama3.2, phi3, mistral 3종 모델을 대상으로 한 Latency 및 정답률 교차 측정
- Baseline, Chain-of-thought, Self-consistency, RAG grounding의 4가지 Prompting 기법을 통한 Hallucination 제어 성능 검증
- 단순 질문과 구조적 프롬프트를 비교하여 모델 내부 지식(Parametric Knowledge)의 임계치 파악
- 정답 매칭 기반의 검증 로직을 통한 모델별 오답 패턴 식별
Impact
- llama3.2: Accuracy 94%(47/50), Avg Latency 5141ms로 최고 성능 기록
- phi3: Accuracy 88%(44/50), Avg Latency 12780ms 기록
- mistral: Accuracy 86%(43/50), Avg Latency 11218ms 기록
- 4가지 Prompting 전략 적용 시 llama3.2의 최종 점수 95%로 수렴
Key Takeaway
모델이 이미 충분한 지식을 보유한 factual QA 영역에서는 Prompting 전략보다 모델 자체의 파라미터 성능과 질문의 난이도가 성능 결정의 핵심 변수로 작용함.
실천 포인트
1. Local LLM 도입 시 Accuracy와 Latency의 Trade-off를 측정하여 최적 모델 선정
2. RAG나 CoT 적용 전, 대상 도메인에 대한 모델의 기본 지식 수준을 먼저 벤치마킹
3. Prompting 최적화가 성능 향상에 기여하지 못하는 '성능 천장' 지점을 파악하여 리소스 낭비 방지