Z-Image - Model pembuat gambar yang kuat dan efisien

(github.com/Tongyi-MAI)

23 poin oleh GN⁺ 2025-12-08 | 3 komentar | Bagikan ke WhatsApp

Model pembuat gambar open source berlisensi Apache 2.0 dari Alibaba dengan performa setara Nano Banana kelas pro
Model pembuat gambar yang efisien dengan 6B parameter berbasis Single-Stream Diffusion Transformer
Terdiri dari tiga versi, dan Z-Image-Turbo mencapai kualitas setara model pesaing hanya dengan inferensi 8 langkah, serta dapat berjalan di lingkungan VRAM 16GB
Z-Image-Edit menyediakan fitur pengeditan gambar berbasis instruksi bahasa alami, sementara Z-Image-Base akan dirilis sebagai model dasar untuk fine-tuning komunitas
Model ini mengadopsi arsitektur S3-DiT untuk mengintegrasikan token teks, visual, dan VAE ke dalam satu sekuens, sehingga memaksimalkan efisiensi parameter
Melalui algoritme Decoupled-DMD dan DMDR, model ini menghasilkan gambar berkualitas tinggi bahkan dalam sedikit langkah, dan mencatatkan performa kelas tertinggi di antara model open source

Ikhtisar Z-Image

Z-Image adalah model dasar pembuat gambar yang menggabungkan efisiensi dan performa, dengan menggunakan struktur Single-Stream Diffusion Transformer
Berbasis 6 miliar parameter dan menyediakan tiga varian model: Z-Image-Turbo, Z-Image-Base, dan Z-Image-Edit
- Z-Image-Turbo: menghasilkan gambar berkualitas tinggi hanya dengan 8 evaluasi fungsi (NFE), dengan latensi inferensi di bawah 1 detik pada GPU H800
- Z-Image-Base: model dasar non-distilasi yang mendukung fine-tuning dan pengembangan kustom berbasis komunitas
- Z-Image-Edit: versi yang dikhususkan untuk pengeditan gambar, dengan kemampuan transformasi gambar berbasis bahasa alami

Fitur utama dan performa

Z-Image-Turbo secara akurat menghasilkan gambar realistis setingkat foto serta rendering teks dwibahasa Inggris dan Mandarin
Fitur Prompt Enhancer memperkuat kemampuan deskripsi berbasis penalaran dan pengetahuan dunia
Z-Image-Edit mendukung transformasi gambar kreatif dan pemahaman instruksi yang akurat
Dalam evaluasi preferensi manusia berbasis Elo di Alibaba AI Arena, model ini mencatat performa kelas tertinggi di antara model open source

Arsitektur model (S3-DiT)

Mengadopsi struktur Scalable Single-Stream DiT(S3-DiT)
- Menggabungkan token teks, token semantik visual, dan token VAE gambar ke dalam satu sekuens
- Memaksimalkan efisiensi parameter dibanding struktur dual-stream yang ada
Struktur ini memungkinkan pembelajaran representasi terpadu teks-gambar

Algoritme inti

Decoupled-DMD
- Decoupled-DMD adalah algoritme distilasi inti yang memungkinkan inferensi 8 langkah pada Z-Image
- DMD (Distribution Matching Distillation) yang ada dipisahkan menjadi dua mekanisme: augmentasi CFG (CA) dan pencocokan distribusi (DM)
  - CA berperan sebagai mesin utama dalam proses distilasi
  - DM berperan sebagai regularisasi untuk menjaga stabilitas dan kualitas output
- Dengan memisahkan dan mengoptimalkan kedua mekanisme ini, dicapai pembuatan gambar berperforma tinggi bahkan dalam sedikit langkah
DMDR
- DMDR(Distribution Matching Distillation with Reinforcement Learning) adalah teknik pascapemrosesan yang menggabungkan DMD dengan reinforcement learning (RL)
- RL memaksimalkan performa DMD, sementara DMD meregularisasi RL dalam struktur yang saling melengkapi
- Melalui ini, kesesuaian semantik, kualitas estetika, dan konsistensi struktural ditingkatkan, sekaligus memperkuat kemampuan mengekspresikan detail frekuensi tinggi

Dukungan komunitas dan ekosistem

Cache-DiT: mendukung akselerasi inferensi melalui DBCache, Context Parallelism, dan Tensor Parallelism
stable-diffusion.cpp: engine berbasis C++ yang memungkinkan menjalankan Z-Image bahkan di lingkungan VRAM 4GB
LeMiCa: menyediakan akselerasi inferensi tingkat timestep tanpa pelatihan
ComfyUI ZImageLatent: menyediakan antarmuka latent yang praktis untuk resolusi resmi

Ringkasan

Z-Image adalah model pembuat gambar open source berperforma tinggi yang menggabungkan struktur efisien (S3-DiT) dan teknik distilasi inovatif (Decoupled-DMD, DMDR)
Z-Image-Turbo mencapai inferensi cepat dan kualitas tinggi sekaligus, serta dapat dijalankan pada GPU kelas konsumen
Z-Image-Edit mendukung pengeditan gambar presisi berbasis bahasa alami
Di Alibaba AI Arena, model ini mencatat skor preferensi manusia kelas tertinggi di antara model open source
Ekosistem Z-Image terintegrasi dengan berbagai proyek komunitas dan sedang berkembang menjadi platform model generatif serbaguna

3 komentar

crawler 2025-12-09

Gambar lokal sudah lama sekali bertahan di sdxl, jadi saya berharap besar karena sepertinya sudah muncul model dasar yang bagus.
Yang paling penting, setelah Stable Diffusion jadi terkenal, sensor makin ketat sampai pelatihan jadi sulit, jadi fakta bahwa ini juga tanpa sensor benar-benar luar biasa.

wedding 2025-12-08

Saya mencobanya karena penasaran. Karena tidak ada sensor, rasanya ini bisa menjadi pisau yang tajam...

GN⁺ 2025-12-08

Komentar Hacker News

Minggu lalu saya mencoba Z-Image Turbo
- Sangat cepat, sekitar 3 detik di RTX 4090, dan kemampuan menjaga konsistensi gambarnya mengejutkan bahkan pada resolusi 1536x1024~2048x2048
- Untuk model 6B parameter, akurasi-nya mengesankan
- Sangat efektif terutama saat memproses ulang (refiner) hasil Qwen-Image 20b. Qwen sangat bagus dalam memahami prompt, tetapi gambarnya cenderung menjadi lembut dan blur
- Contoh uji
- Di RTX 4090 butuh 3 detik, tetapi di M1 Ultra butuh 8 detik per step, jadi dengan default 9 step perlu lebih dari 1 menit
- Ini membuat saya sadar betapa tertinggalnya Apple Silicon dalam menangani model non-bahasa
- Di fal.ai, gambar bisa dibuat dalam kurang dari 1 detik. Jika digabung dengan LoRA, gambar yang dipersonalisasi juga bisa dibuat dalam 3 detik
- Dibandingkan dengan seedream, nanobanana, dan lainnya, kombinasi kecepatan dan kualitas-nya cukup kuat hingga layak masuk 5 besar
- Namun saat pengujian, hanya 2 dari 4 yang lolos; misalnya batang kitkat memiliki bentuk dan logo yang sama sekali berbeda, dan DNA armor hanya ditampilkan sebagai material logam biasa
- Ada typo (gitub) pada tautan GitHub yang mengarah ke situs berbahaya, jadi perlu berhati-hati
- Tiongkok pada dasarnya menopang ekosistem AI open-weight. Jika nanti pasar GPU konsumen masih tersisa, rasanya itu berkat Tiongkok
Hasil seperti ini dari 6B parameter adalah kemajuan yang mengejutkan
- Komunitas dengan cepat menerima model ini, dan Flux(2) hampir terlupakan
- Z-Image juga makin populer karena merupakan model yang tidak disensor. Sebaliknya, perusahaan pembuat Flux 2, BFL, menghabiskan sebagian besar siaran persnya untuk menekankan “keamanan” (yaitu, sensor)
- Namun “keamanan” itu lebih terkait kebijakan layanan online daripada model itu sendiri. Dalam praktiknya, gambar tetap bisa dibuat tanpa batasan
- Penyebutan “keamanan” pada dasarnya hanyalah pesan kepada investor: “kami tidak akan membuat Anda dalam masalah”
- Istilah “lobotomizing” menarik. Saya penasaran apa artinya menerapkannya pada model pembuat gambar
- Tetapi kalau model ini buatan Tiongkok, mungkin saja tidak bisa membuat gambar Xi Jinping
Model ini baru-baru ini dibahas di podcast Pretrained
- Model ini punya arsitektur yang efisien dengan mendaur ulang backbone yang sudah ada untuk encoding teks dan token semantik
- Dilatih dengan data caption sintetis dalam berbagai panjang, sehingga kemampuan pemahaman teksnya tinggi
- Teks OCR di dalam gambar juga dimasukkan dalam pelatihan, sehingga kualitas pembuatan teks meningkat. Nano Banana Pro berkembang dengan cara yang mirip
Jika melihat PDF demo resmi, ada hampir 50 foto perempuan tunggal, sedangkan foto laki-laki tunggal hanya 2
- Pasar target yang dibayangkan para pengembang terlihat jelas
- Kalau melihat situs seperti civitai, sebagian besar gambar buatan pengguna dan LoRA memang mencerminkan pasar itu
- Pada akhirnya, teknologi seperti ini didorong oleh hasrat pria muda
- Melihat reaksi komunitas r/stablediffusion, Flux 2 tampaknya praktis sudah mati. Pengetahuan yang dimilikinya jauh lebih banyak, tetapi Z-Image lebih populer
- Menariknya, salah satu model pria tetap persis Tony Leung tanpa perubahan
- Karena model ini dalam keadaan tidak disensor, tampaknya lebih cocok untuk pasar tersebut
Setelah mencobanya sendiri, hasilnya mengecewakan
- Sekilas memang terlihat bagus, tetapi sebenarnya kemampuan mengikuti prompt-nya lemah, dan frasa seperti “most cultures” berubah menjadi gambar bergaya kartun
Z-Image dinilai sebagai penerus sejati Stable Diffusion 1.5
- Kualitas, skalabilitas, dan kemungkinan berjalan secara lokal semuanya meningkat, dan ekosistemnya sedang terbentuk dengan cepat
- Tapi saya ingin bertanya apakah SDXL jadi terlupakan. Baru dirilis 2 setengah tahun lalu
Saya mengujinya di Framework Desktop, tetapi ComfyUI memicu error kernel amdgpu sekitar step ke-40, jadi saya menulis kode workaround sendiri
- Saya mendapat hasil yang lumayan dengan LoRA, dan bahkan dengan 8 step (15~20 detik) saja sudah bisa membuat gambar yang cukup enak dilihat
- Saya membuat node penguat prompt berbasis llama.cpp untuk meningkatkan kualitas
Mengejutkan bahwa pengetahuan dunia sebanyak ini bisa masuk dalam 16GiB
- Ini masih tahap awal, tetapi ke depan AI lokal akan berkembang ke arah yang lebih dipersonalisasi dan bisa di-hack
- Saya pikir masa depan akan berpusat pada model cerdas seperti Nano Banana
- Agar benar-benar berguna, harus ada cara untuk menyuntikkan lapisan kontrol langsung ke dalam model
- Saya berharap suatu hari model setingkat Nano Banana Pro juga bisa berjalan secara lokal
Namun model ini juga terdampak sensor Tiongkok
- Jika diminta “Tank Man” atau “Lady Liberty Hong Kong”, yang keluar hanya frasa “Maybe Not Safe”
Sebagai pemula AI, saya penasaran apakah ini bisa dijalankan di MacBook 24GB
- Di M5 MacBook Pro, ternyata butuh 399 detik untuk membuat satu gambar, dan selama itu sistem jadi macet
- Di replicate.com, satu gambar hanya butuh 1,5 detik dengan biaya sekitar 1 dolar per 1000 gambar, jadi jauh lebih efisien
- Kesimpulannya, menjalankannya secara lokal di Mac tidak efisien
- Untuk pemula, ComfyUI untuk macOS adalah yang paling mudah. Jika mengimpor workflow Z-Image, model akan diinstal dan dijalankan secara otomatis
- Ada juga cara menjalankannya dengan koboldcpp di Linux, Windows, dan Mac. Cukup muat file konfigurasi lalu gunakan langsung dari server lokal (http://localhost:5001/sdui)