피드로 돌아가기
We trained a personal voice DoRA on Qwen3-8B for $1.50 — beat stock model 100% in blind A/B
Dev.toDev.to
AI/ML

1.5달러로 Qwen3-8B에 개인 맞춤형 DoRA 적용, 100%의 A/B 테스트 승률 달성

We trained a personal voice DoRA on Qwen3-8B for $1.50 — beat stock model 100% in blind A/B

Yuka Kust2026년 5월 25일5advanced

Context

기존 Persona 기반 AI 모델은 사용자군을 세그먼트로 묶어 처리하는 한계로 인해 개별 사용자의 고유한 말투와 정체성을 완벽히 재현하지 못하는 문제 발생. 일반적인 LoRA 튜닝은 가중치 업데이트 범위가 제한적이어서 Full Fine-tuning 대비 표현력 및 정밀도가 떨어지는 경향을 보임.

Technical Solution

  • DoRA(Weight-Decomposed Low-Rank Adaptation) 채택을 통한 가중치의 크기(Magnitude)와 방향(Direction) 분리 학습으로 Full Fine-tuning에 근접한 성능 확보
  • 6,128개의 텔레그램 메시지 페어 추출 및 대화당 최대 12개 쌍으로 제한하여 특정 대화 세션에 의한 데이터 편향 방지
  • Assistant 토큰에만 Loss를 적용하는 마스킹 전략을 통해 Prompt(타인 메시지) 학습으로 인한 Voice Signal 희석 방지
  • Qwen3-8B의 기본 추론 특성인 Reasoning Trace 제거를 위해 enable_thinking=False 설정을 강제하여 Chat-style 응답 정렬
  • RTX 3090 단일 GPU 환경에서 3.5시간의 학습으로 약 30M(전체 0.4%)의 파라미터만 업데이트하는 고효율 어댑터 설계

Impact

  • Blind A/B 테스트 결과 DoRA 튜닝 모델이 Stock 모델 대비 100% 승률 기록
  • 3-way 비교(실제 인간/DoRA/Stock)에서 DoRA 모델이 29%의 선택률을 기록하며 Stock 모델(0%)을 압도
  • 50가지 일반 지식 태스크 수행 결과 Catastrophic Forgetting 발생률 0% 유지
  • 단일 RTX 3090 사용 시 총 비용 1.5달러 및 학습 시간 3.5시간 소요

Key Takeaway

개인화 AI의 최적 단위는 세그먼트가 아닌 개별 사용자이며, 저비용 고효율의 Adapter 기반 아키텍처를 통해 모델 성능 저하 없이 극도의 개인화를 달성할 수 있음.


- Qwen3-8B 기반 Chat 어댑터 학습 시 `enable_thinking=False` 설정으로 추론-학습 접두사 정렬 확인 - 개인화 모델 학습 시 타인의 메시지가 포함된 Prompt 영역을 Loss 계산에서 제외하는 마스킹 처리 적용 - LoRA의 표현력 한계 직면 시 가중치 분해 방식인 DoRA 도입 검토 - Vast.ai 등 Spot 인스턴스 활용 시 transformers 및 torch 버전 간의 의존성 충돌 사전 확인(

4.

5

3.0 버전 권장)

원문 읽기