피드로 돌아가기
Dev.toAI/ML
원문 읽기
Human-in-the-loop 기반 AI Response Active Co-creation 구조 설계
Building an AI Chatbot That Learns From Human Edits (Not Just Feedback)
AI 요약
Context
RLHF 기반의 정답 중심 학습 체계로 인한 AI의 감성적 공감 능력 부족 문제 발생. 단순 정답률과 안전성 최적화 위주의 피드백 루프로 인해 사용자가 체감하는 정서적 만족도 저하라는 한계 직면.
Technical Solution
- 단순 Rating 방식의 Passive Feedback을 배제한 Active Co-creation 메커니즘 도입
- 만족스럽지 않은 응답을 'Academy'라는 별도 큐로 전송하는 파이프라인 구축
- 다수 사용자가 직접 응답을 수정하는 Human-led Rewriting 프로세스 적용
- 커뮤니티 투표 기반의 최적 응답 선정 알고리즘을 통한 고품질 데이터셋 확보
- 평가자(Evaluator)에서 기여자(Contributor)로 사용자의 역할을 전환한 데이터 수집 아키텍처 설계
실천 포인트
- 피드백 루프 설계 시 단순 척도형 점수보다 구체적인 수정 데이터(Gold Dataset) 확보 방안 검토 - AI 응답의 도메인 특성에 따라 Correctness와 Empathy 중 우선순위 설정 및 학습 전략 차별화 - 사용자 참여형 데이터 정제 프로세스 도입 시 투표 기반의 합의 알고리즘 적용 가능성 검토