피드로 돌아가기
[Day 2] I Trained an AI on 22 Photos of My Cat — Now It Draws Her in Any Scene
Dev.toDev.to
AI/ML

DGX Spark 기반 LoRA 학습으로 13분 만에 특정 객체 특성 추출 성공

[Day 2] I Trained an AI on 22 Photos of My Cat — Now It Draws Her in Any Scene

PEPPERCORN2026년 5월 5일7intermediate

Context

범용 AI 모델이 특정 개인 객체의 세부 특징을 재현하지 못하는 한계 존재. 베이스 모델 전체를 튜닝하는 대신 소규모 데이터셋으로 특정 특징만 학습시키는 효율적 구조 필요.

Technical Solution

  • LoRA(Low-Rank Adaptation) 도입을 통한 베이스 모델 동결 및 소량의 가중치 업데이트 파일(Diff file) 생성 구조 설계
  • HEIC 파일의 EXIF Orientation 태그 무시로 인한 이미지 회전 문제를 ImageOps.exif_transpose() 명시적 호출로 해결
  • ARM64 아키텍처 제약을 극복하기 위해 GUI 래퍼 대신 CLI 기반의 sd-scripts 라이브러리 채택
  • 고유 식별자(ohwx)를 Trigger Word로 지정하여 특정 객체 특징과 텍스트 토큰 간의 강력한 매핑 관계 형성
  • ComfyUI HTTP API를 통한 배치 생성 파이프라인 구축으로 GUI 기반의 수동 생성 병목 제거
  • Realistic Vision V6.0 B1과 외부 VAE 조합을 통한 털 질감 등 고해상도 디테일 최적화

Impact

  • DGX Spark 환경에서 1,100 Step 학습을 13분 3초 만에 완료
  • 단일 이미지(512x768) 생성 속도 약 3초 달성
  • 22장의 소규모 이미지 데이터셋만으로 특정 객체의 시각적 정체성 재현 성공

Key Takeaway

전체 모델 파라미터를 수정하지 않고 저차원 행렬을 추가하는 LoRA 구조를 통해 연산 자원 최소화와 학습 효율성을 동시에 확보 가능함.


- iPhone HEIC 이미지 처리 시 반드시 EXIF Orientation 태그 반영 여부 확인 - ARM64 기반 GPU 서버 환경에서는 의존성 충돌 방지를 위해 CLI 기반 라이브러리 우선 검토 - 반복적인 추론 테스트가 필요한 경우 GUI 대신 HTTP API를 통한 자동화 스크립트 구현 권장

원문 읽기