피드로 돌아가기
PRX Part 3 — Training a Text-to-Image Model in 24h!
Hugging Face BlogHugging Face Blog
AI/ML

PRX Part 3 — Training a Text-to-Image Model in 24h!

Photoroom이 픽셀 공간 학습, 지각 손실, 토큰 라우팅, 표현 정렬 등 4가지 기법을 결합하여 32개 H200 GPU로 24시간 내에 텍스트-이미지 확산 모델 학습

2026년 3월 3일12advanced

Context

확산 모델의 초기 학습은 수백만 달러의 막대한 컴퓨팅 비용이 필요했으며, 단일 아키텍처 최적화만으로는 전체 성능 향상에 제한이 있었다.

Technical Solution

  • x-prediction을 픽셀 공간에서 직접 수행: VAE 제거하고 32 패치 크기로 토큰 길이 관리 (512px에서 256 토큰, 1024px에서 1024 토큰으로 제한)
  • 지각 손실 2가지 추가: LPIPS 손실(가중치 0.1)과 DINO 지각 손실(가중치 0.01)을 모든 노이즈 레벨에서 풀 이미지에 적용
  • TREAD를 통한 토큰 라우팅 적용: 50%의 토큰을 2번째 블록에서 마지막 직전 블록까지 스킵하도록 구성하고 자체-안내 기법 구현
  • REPA와 DINOv3를 사용한 표현 정렬: 표현 공간 정렬을 통해 모델 수렴 성능 향상
  • 512px에서 직접 시작하고 1024px에서 미세조정: 기존 256px → 512px → 1024px 스케줄 대신 변경

Impact

32개 H200 GPU 기준 총 컴퓨팅 비용 $1500 (2$/시간/GPU) 내에서 24시간 완성

Key Takeaway

여러 개별 최적화 기법을 단순히 누적 적용하는 것이 아니라, 픽셀 공간 학습으로 인한 토큰 길이 제약 해결과 지각 손실의 구현 방식(풀 이미지 vs 패치 단위) 같은 세부 조정을 통해 제한된 예산 내에서 최대 성능을 도출할 수 있음을 보여준다.


대규모 언어-이미지 모델 학습을 수행하는 팀에서 픽셀 공간 x-prediction 학습을 도입할 때, VAE 제거로 인한 시퀀스 길이 증가를 패치 크기 조정(32 권장)과 초기 토큰 프로젝션 병목(256 차원)으로 제어하고, 지각 손실을 전체 이미지 레벨에서 모든 노이즈 단계에 적용하면 학습 수렴 속도와 최종 이미지 품질을 동시에 개선할 수 있다.

원문 읽기