Z-Image - Model pembuat gambar yang kuat dan efisien
(github.com/Tongyi-MAI)- Model pembuat gambar open source berlisensi Apache 2.0 dari Alibaba dengan performa setara Nano Banana kelas pro
- Model pembuat gambar yang efisien dengan 6B parameter berbasis Single-Stream Diffusion Transformer
- Terdiri dari tiga versi, dan Z-Image-Turbo mencapai kualitas setara model pesaing hanya dengan inferensi 8 langkah, serta dapat berjalan di lingkungan VRAM 16GB
- Z-Image-Edit menyediakan fitur pengeditan gambar berbasis instruksi bahasa alami, sementara Z-Image-Base akan dirilis sebagai model dasar untuk fine-tuning komunitas
- Model ini mengadopsi arsitektur S3-DiT untuk mengintegrasikan token teks, visual, dan VAE ke dalam satu sekuens, sehingga memaksimalkan efisiensi parameter
- Melalui algoritme Decoupled-DMD dan DMDR, model ini menghasilkan gambar berkualitas tinggi bahkan dalam sedikit langkah, dan mencatatkan performa kelas tertinggi di antara model open source
Ikhtisar Z-Image
- Z-Image adalah model dasar pembuat gambar yang menggabungkan efisiensi dan performa, dengan menggunakan struktur Single-Stream Diffusion Transformer
- Berbasis 6 miliar parameter dan menyediakan tiga varian model: Z-Image-Turbo, Z-Image-Base, dan Z-Image-Edit
- Z-Image-Turbo: menghasilkan gambar berkualitas tinggi hanya dengan 8 evaluasi fungsi (NFE), dengan latensi inferensi di bawah 1 detik pada GPU H800
- Z-Image-Base: model dasar non-distilasi yang mendukung fine-tuning dan pengembangan kustom berbasis komunitas
- Z-Image-Edit: versi yang dikhususkan untuk pengeditan gambar, dengan kemampuan transformasi gambar berbasis bahasa alami
Fitur utama dan performa
- Z-Image-Turbo secara akurat menghasilkan gambar realistis setingkat foto serta rendering teks dwibahasa Inggris dan Mandarin
- Fitur Prompt Enhancer memperkuat kemampuan deskripsi berbasis penalaran dan pengetahuan dunia
- Z-Image-Edit mendukung transformasi gambar kreatif dan pemahaman instruksi yang akurat
- Dalam evaluasi preferensi manusia berbasis Elo di Alibaba AI Arena, model ini mencatat performa kelas tertinggi di antara model open source
Arsitektur model (S3-DiT)
- Mengadopsi struktur Scalable Single-Stream DiT(S3-DiT)
- Menggabungkan token teks, token semantik visual, dan token VAE gambar ke dalam satu sekuens
- Memaksimalkan efisiensi parameter dibanding struktur dual-stream yang ada
- Struktur ini memungkinkan pembelajaran representasi terpadu teks-gambar
Algoritme inti
-
Decoupled-DMD
- Decoupled-DMD adalah algoritme distilasi inti yang memungkinkan inferensi 8 langkah pada Z-Image
- DMD (Distribution Matching Distillation) yang ada dipisahkan menjadi dua mekanisme: augmentasi CFG (CA) dan pencocokan distribusi (DM)
- CA berperan sebagai mesin utama dalam proses distilasi
- DM berperan sebagai regularisasi untuk menjaga stabilitas dan kualitas output
- Dengan memisahkan dan mengoptimalkan kedua mekanisme ini, dicapai pembuatan gambar berperforma tinggi bahkan dalam sedikit langkah
-
DMDR
- DMDR(Distribution Matching Distillation with Reinforcement Learning) adalah teknik pascapemrosesan yang menggabungkan DMD dengan reinforcement learning (RL)
- RL memaksimalkan performa DMD, sementara DMD meregularisasi RL dalam struktur yang saling melengkapi
- Melalui ini, kesesuaian semantik, kualitas estetika, dan konsistensi struktural ditingkatkan, sekaligus memperkuat kemampuan mengekspresikan detail frekuensi tinggi
Dukungan komunitas dan ekosistem
- Cache-DiT: mendukung akselerasi inferensi melalui DBCache, Context Parallelism, dan Tensor Parallelism
- stable-diffusion.cpp: engine berbasis C++ yang memungkinkan menjalankan Z-Image bahkan di lingkungan VRAM 4GB
- LeMiCa: menyediakan akselerasi inferensi tingkat timestep tanpa pelatihan
- ComfyUI ZImageLatent: menyediakan antarmuka latent yang praktis untuk resolusi resmi
Ringkasan
- Z-Image adalah model pembuat gambar open source berperforma tinggi yang menggabungkan struktur efisien (S3-DiT) dan teknik distilasi inovatif (Decoupled-DMD, DMDR)
- Z-Image-Turbo mencapai inferensi cepat dan kualitas tinggi sekaligus, serta dapat dijalankan pada GPU kelas konsumen
- Z-Image-Edit mendukung pengeditan gambar presisi berbasis bahasa alami
- Di Alibaba AI Arena, model ini mencatat skor preferensi manusia kelas tertinggi di antara model open source
- Ekosistem Z-Image terintegrasi dengan berbagai proyek komunitas dan sedang berkembang menjadi platform model generatif serbaguna
3 komentar
Gambar lokal sudah lama sekali bertahan di
sdxl, jadi saya berharap besar karena sepertinya sudah muncul model dasar yang bagus.Yang paling penting, setelah Stable Diffusion jadi terkenal, sensor makin ketat sampai pelatihan jadi sulit, jadi fakta bahwa ini juga tanpa sensor benar-benar luar biasa.
Saya mencobanya karena penasaran. Karena tidak ada sensor, rasanya ini bisa menjadi pisau yang tajam...
Komentar Hacker News
Minggu lalu saya mencoba Z-Image Turbo
Hasil seperti ini dari 6B parameter adalah kemajuan yang mengejutkan
Model ini baru-baru ini dibahas di podcast Pretrained
Jika melihat PDF demo resmi, ada hampir 50 foto perempuan tunggal, sedangkan foto laki-laki tunggal hanya 2
Setelah mencobanya sendiri, hasilnya mengecewakan
Z-Image dinilai sebagai penerus sejati Stable Diffusion 1.5
Saya mengujinya di Framework Desktop, tetapi ComfyUI memicu error kernel amdgpu sekitar step ke-40, jadi saya menulis kode workaround sendiri
Mengejutkan bahwa pengetahuan dunia sebanyak ini bisa masuk dalam 16GiB
Namun model ini juga terdampak sensor Tiongkok
Sebagai pemula AI, saya penasaran apakah ini bisa dijalankan di MacBook 24GB
http://localhost:5001/sdui)