- Model pembuat gambar open source berlisensi Apache 2.0 dari Alibaba dengan performa setara Nano Banana kelas pro
- Model pembuat gambar yang efisien dengan 6B parameter berbasis Single-Stream Diffusion Transformer
- Terdiri dari tiga versi, dan Z-Image-Turbo mencapai kualitas setara model pesaing hanya dengan inferensi 8 langkah, serta dapat berjalan di lingkungan VRAM 16GB
- Z-Image-Edit menyediakan fitur pengeditan gambar berbasis instruksi bahasa alami, sementara Z-Image-Base akan dirilis sebagai model dasar untuk fine-tuning komunitas
- Model ini mengadopsi arsitektur S3-DiT untuk mengintegrasikan token teks, visual, dan VAE ke dalam satu sekuens, sehingga memaksimalkan efisiensi parameter
- Melalui algoritme Decoupled-DMD dan DMDR, model ini menghasilkan gambar berkualitas tinggi bahkan dalam sedikit langkah, dan mencatatkan performa kelas tertinggi di antara model open source
Ikhtisar Z-Image
- Z-Image adalah model dasar pembuat gambar yang menggabungkan efisiensi dan performa, dengan menggunakan struktur Single-Stream Diffusion Transformer
- Berbasis 6 miliar parameter dan menyediakan tiga varian model: Z-Image-Turbo, Z-Image-Base, dan Z-Image-Edit
- Z-Image-Turbo: menghasilkan gambar berkualitas tinggi hanya dengan 8 evaluasi fungsi (NFE), dengan latensi inferensi di bawah 1 detik pada GPU H800
- Z-Image-Base: model dasar non-distilasi yang mendukung fine-tuning dan pengembangan kustom berbasis komunitas
- Z-Image-Edit: versi yang dikhususkan untuk pengeditan gambar, dengan kemampuan transformasi gambar berbasis bahasa alami
Fitur utama dan performa
- Z-Image-Turbo secara akurat menghasilkan gambar realistis setingkat foto serta rendering teks dwibahasa Inggris dan Mandarin
- Fitur Prompt Enhancer memperkuat kemampuan deskripsi berbasis penalaran dan pengetahuan dunia
- Z-Image-Edit mendukung transformasi gambar kreatif dan pemahaman instruksi yang akurat
- Dalam evaluasi preferensi manusia berbasis Elo di Alibaba AI Arena, model ini mencatat performa kelas tertinggi di antara model open source
Arsitektur model (S3-DiT)
- Mengadopsi struktur Scalable Single-Stream DiT(S3-DiT)
- Menggabungkan token teks, token semantik visual, dan token VAE gambar ke dalam satu sekuens
- Memaksimalkan efisiensi parameter dibanding struktur dual-stream yang ada
- Struktur ini memungkinkan pembelajaran representasi terpadu teks-gambar
Algoritme inti
-
Decoupled-DMD
- Decoupled-DMD adalah algoritme distilasi inti yang memungkinkan inferensi 8 langkah pada Z-Image
- DMD (Distribution Matching Distillation) yang ada dipisahkan menjadi dua mekanisme: augmentasi CFG (CA) dan pencocokan distribusi (DM)
- CA berperan sebagai mesin utama dalam proses distilasi
- DM berperan sebagai regularisasi untuk menjaga stabilitas dan kualitas output
- Dengan memisahkan dan mengoptimalkan kedua mekanisme ini, dicapai pembuatan gambar berperforma tinggi bahkan dalam sedikit langkah
-
DMDR
- DMDR(Distribution Matching Distillation with Reinforcement Learning) adalah teknik pascapemrosesan yang menggabungkan DMD dengan reinforcement learning (RL)
- RL memaksimalkan performa DMD, sementara DMD meregularisasi RL dalam struktur yang saling melengkapi
- Melalui ini, kesesuaian semantik, kualitas estetika, dan konsistensi struktural ditingkatkan, sekaligus memperkuat kemampuan mengekspresikan detail frekuensi tinggi
Dukungan komunitas dan ekosistem
- Cache-DiT: mendukung akselerasi inferensi melalui DBCache, Context Parallelism, dan Tensor Parallelism
- stable-diffusion.cpp: engine berbasis C++ yang memungkinkan menjalankan Z-Image bahkan di lingkungan VRAM 4GB
- LeMiCa: menyediakan akselerasi inferensi tingkat timestep tanpa pelatihan
- ComfyUI ZImageLatent: menyediakan antarmuka latent yang praktis untuk resolusi resmi
Ringkasan
- Z-Image adalah model pembuat gambar open source berperforma tinggi yang menggabungkan struktur efisien (S3-DiT) dan teknik distilasi inovatif (Decoupled-DMD, DMDR)
- Z-Image-Turbo mencapai inferensi cepat dan kualitas tinggi sekaligus, serta dapat dijalankan pada GPU kelas konsumen
- Z-Image-Edit mendukung pengeditan gambar presisi berbasis bahasa alami
- Di Alibaba AI Arena, model ini mencatat skor preferensi manusia kelas tertinggi di antara model open source
- Ekosistem Z-Image terintegrasi dengan berbagai proyek komunitas dan sedang berkembang menjadi platform model generatif serbaguna
Belum ada komentar.