피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM 압축 시 Trap Clause 생존율 분석 및 모델별 Concision 특성 규명
Can LLMs save themselves from verbosity?
AI 요약
Context
LLM의 고질적인 Verbosity로 인한 추론 비용 증가 및 정보 밀도 저하 문제 발생. 단순 요약 시 의사결정에 핵심적인 'Negation-by-exception' 조건(Trap Clause)이 누락되어 최종 판단 결과가 반전되는 Fidelity 손실 가능성 분석.
Technical Solution
- ContractNLI 데이터셋의 NDA 문서를 활용하여 Expert Label 기반의 Decision-survival 측정 구조 설계
- 원문 답변(Ceiling)과 압축 후 답변의 Exact Match 여부를 통해 정보 손실률을 정량화하는 벤치마크 구축
- Naive Prompt와 Effortful Prompt를 대조하여 모델 크기별 Prompt Engineering의 효용성 검증
- Reasoning Model의 CoT(Chain-of-Thought) 토큰 소모가 출력 결과의 Bloated 현상을 유발함을 식별하고 reasoning_effort 파라미터 제어를 통한 최적화 적용
- Word-budget 제약 조건을 부여하여 모델별 최소 압축 임계점(Lower bound) 및 Fidelity 유지 한계점 측정
Impact
- llama-3.1-8b 모델의 Trap Clause 생존율이 Naive(57%)에서 Effortful Prompt(74%)로 +17%p 향상
- qwen3-32b 모델이 gpt-oss-120b 대비 낮은 압축 비율(0.37 vs 0.43)로 유사한 Fidelity 유지 확인
- Word-budget 적용 시 qwen3-32b의 압축 비율을 0.37에서 0.32까지 낮추면서도 95%의 Trap 생존율 유지
Key Takeaway
모델의 파라미터 규모가 작을수록 Prompt Engineering을 통한 성능 회복 탄력성이 높으며, Concision 능력은 모델마다 고유한 특성으로 존재함. 특히 Reasoning 모델 적용 시 내부 추론 토큰 예산을 명확히 제한해야 실제 생성 태스크의 성능을 정확히 측정 가능함.
실천 포인트
- 소형 모델 도입 시 정교한 Lossless Instruction 설계를 통해 정보 누락 방지 - Reasoning Model 사용 시 reasoning_effort 설정을 통해 숨겨진 토큰 낭비 및 출력물 비대화 제어 - 단순 요약 결과의 신뢰도를 검증하기 위해 핵심 조건절(Exception/Negation)의 보존 여부를 체크하는 검증 루프 구축