피드로 돌아가기
Dev.toAI/ML
원문 읽기
동일 AI·동일 프롬프트로도 세션마다 상이한 출력 생성됨. Formal contract 기반 검증 파이프라인 구축으로 35%에서 75% 신뢰도 향상 달성함.
Same Prompt. Different Answers Every Time. Here's How I Fixed It.
AI 요약
Context
LLM inference는 non-deterministic 특성으로 인해 동일 프롬프트라도 세션마다 상이한 출력을 생성함. 시장 규모 예측 사례에서 4배 가량의 갭($10-15B vs $3.3B)이 발생함. 이는 hallucination이 아닌 context drift에 기인함.
Technical Solution
- gem2_truth_filter: 출력을 0-100% 점수화하고 L→G(local→global), S→T(snapshot→trend), Δe→∫de(thin evidence→broad claim) 패턴으로 실패 원인을 추적함
- tpmn_contract_writer: 자연어 프롬프트를 formal contract(입출력 타입, invariants, prohibited patterns)로 변환함
- Contract enforcement: 동일한 AI에 contract를 적용하여 35%→81%로 신뢰도 향상함
- Human-at-the-edge: 인간이 모든 출력을 검토하는 대신 검증 표준을 한 번 정의하면 시스템이 자동 enforcement함
Impact
동일 AI·동일 질문에서 35%(무검증)→75%(contract+human judgment) 신뢰도 확보함. 38개 포인트 품질 향상은 prompting 개선이 아닌 검증 인프라 도입으로 달성함.
Key Takeaway
AI 출력 불안정성은 prompting이 아닌 별도의 검증 레이어로 해결해야 함. Truth filter는 점수가 아닌 패턴(fingerprint)을 제공하여 출력 편차를 추적 가능하게 함.
실천 포인트
LLM 기반 생성 시스템에서 동일 프롬프트의 출력 편차 문제가 발생 시 gem2_truth_filter로 실패 패턴을 분석하고, contract writer로 formal constraints를 정의한 뒤 human-at-edge 모델로 검증 표준을 설정할 것.