Full-PCL 루프 기반 Trace 데이터 추출로 IFEval Pass rate 8.7%p 향상

Trace-to-Training: how agent runs become learning data

Teller2026년 6월 26일2분advanced

AI 요약

Context

대부분의 에이전트 프레임워크가 실행 로그를 폐기하는 한계로 인해 고품질의 학습 데이터 확보가 어려움. 사람이 직접 라벨링하는 방식의 높은 비용과 시간 제약으로 인한 데이터 확장성 부족 상황임.

Technical Solution

Compliance Engine을 통한 Agent 실행 결과의 자동 평가 및 Typed ComplianceEvalRecord 형태로 기록하는 구조 설계
실행 모드를 direct, prompt_retry, full_pcl로 구분하여 단계적 정교화 전략 적용
Full-PCL 모드에서 '실행-평가-패치-재평가'로 이어지는 전체 Trace를 기록하여 실패와 성공의 인과관계 확보
RolloutForkRunner를 활용한 병렬 실행으로 여러 후보군을 생성하고 RolloutRanker로 순위를 매기는 Preference Pair 구성
Compliance Verifier를 Reward Signal로 활용하여 Human Annotation 없는 자동화된 SFT 및 DPO 학습 파이프라인 구축

Impact

Qwen2.5-1.5B-Q4 모델 기준 prompt_retry(46.0%) 대비 full_pcl(54.7%) 적용 시 Pass rate 8.7%p 상승
표준 편차를 ±2.0pp에서 ±1.2pp로 낮춤으로써 프로덕션 환경의 추론 신뢰성 강화

Key Takeaway

단순히 최종 결과물만 저장하는 것이 아니라, 정답에 도달하기까지의 실패 경로(Failure Traces)를 학습 데이터로 전환하는 Trace-to-Training 전략의 중요성 확인

실천 포인트

- 에이전트 실행 시 단순 로그가 아닌 스키마가 검증된 구조화된 기록(Typed Record) 체계 구축 여부 검토 - DPO 학습을 위해 단순 정답셋이 아닌, 동일 입력에 대한 다중 경로 생성 및 랭킹 시스템(Rollout Forking) 도입 고려 - 모델 성능 향상을 위해 Human Labeling 대신 도메인 특화 Verifier를 통한 자동 Reward Signal 생성 가능성 분석

태그

#Trace-to-Training #DPO #Preference Pair #Compliance Engine #SFT

원문 읽기