피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Krea 2: 오픈 가중치 12B 이미지 모델 기술 보고서
12B DiT 기반의 창작 탐색형 이미지 모델 Krea 2 설계 및 학습 전략
AI 요약
Context
기존 이미지 모델들이 신뢰성 최적화 과정에서 좁은 기본 미학으로 수렴하며 창작적 다양성이 결여되는 한계 직면. 스타일과 구도를 폭넓게 탐색할 수 있는 Exploratory Medium으로서의 이미지 생성 엔진 구축 필요성 대두.
Technical Solution
- GQA와 Gated Sigmoid Attention을 결합하여 학습 안정성과 계산 효율성을 동시에 확보한 Single-stream DiT 아키텍처 설계
- Timestep 조건화의 파라미터 오버헤드(20-30%)를 줄이기 위해 블록별 Bias 항으로 대체하여 절약된 자원을 Attention 및 MLP에 재배분
- 저해상도에서 고해상도로 이어지는 커리큘럼 학습 전략 및 CPU 기반 필터와 소형 VLM 분류기를 활용한 다단계 데이터 정제 파이프라인 구축
- Prompt Expander와 Style Reference 시스템을 도입하여 사용자 입력의 모호함과 학습 데이터 캡션 간의 Condition 공간 격차 해소
- FAISS 기반 계층적 k-means 클러스터링과 PageRank 기반 개념 샘플링을 통한 롱테일 시각 개념의 보존 및 데이터 커버리지 확대
- Qwen 3 VL 텍스트 인코더와 FLUX 2 VAE를 선택하여 텍스트 추종 성능과 사실적 텍스처 복원 품질 최적화
실천 포인트
1. 대규모 모델 학습 시 파라미터 비중이 높은 조건화 모듈을 경량 Bias 항으로 대체 가능한지 검토
2. 데이터셋 구축 시 단순 고품질 필터링보다 롱테일 개념 보존을 위한 클러스터링 기반 샘플링 적용
3. 사용자 입력과 학습 데이터 간의 갭을 줄이기 위한 전처리 단계의 LLM 기반 프롬프트 확장기 도입 고려
4. 해상도 단계별 커리큘럼 학습을 통한 컴퓨팅 자원(FLOPs)의 효율적 배분 전략 수립