23 poin oleh GN⁺ 2025-12-08 | Belum ada komentar. | Bagikan ke WhatsApp
  • Model pembuat gambar open source berlisensi Apache 2.0 dari Alibaba dengan performa setara Nano Banana kelas pro
  • Model pembuat gambar yang efisien dengan 6B parameter berbasis Single-Stream Diffusion Transformer
  • Terdiri dari tiga versi, dan Z-Image-Turbo mencapai kualitas setara model pesaing hanya dengan inferensi 8 langkah, serta dapat berjalan di lingkungan VRAM 16GB
  • Z-Image-Edit menyediakan fitur pengeditan gambar berbasis instruksi bahasa alami, sementara Z-Image-Base akan dirilis sebagai model dasar untuk fine-tuning komunitas
  • Model ini mengadopsi arsitektur S3-DiT untuk mengintegrasikan token teks, visual, dan VAE ke dalam satu sekuens, sehingga memaksimalkan efisiensi parameter
  • Melalui algoritme Decoupled-DMD dan DMDR, model ini menghasilkan gambar berkualitas tinggi bahkan dalam sedikit langkah, dan mencatatkan performa kelas tertinggi di antara model open source

Ikhtisar Z-Image

  • Z-Image adalah model dasar pembuat gambar yang menggabungkan efisiensi dan performa, dengan menggunakan struktur Single-Stream Diffusion Transformer
  • Berbasis 6 miliar parameter dan menyediakan tiga varian model: Z-Image-Turbo, Z-Image-Base, dan Z-Image-Edit
    • Z-Image-Turbo: menghasilkan gambar berkualitas tinggi hanya dengan 8 evaluasi fungsi (NFE), dengan latensi inferensi di bawah 1 detik pada GPU H800
    • Z-Image-Base: model dasar non-distilasi yang mendukung fine-tuning dan pengembangan kustom berbasis komunitas
    • Z-Image-Edit: versi yang dikhususkan untuk pengeditan gambar, dengan kemampuan transformasi gambar berbasis bahasa alami

Fitur utama dan performa

  • Z-Image-Turbo secara akurat menghasilkan gambar realistis setingkat foto serta rendering teks dwibahasa Inggris dan Mandarin
  • Fitur Prompt Enhancer memperkuat kemampuan deskripsi berbasis penalaran dan pengetahuan dunia
  • Z-Image-Edit mendukung transformasi gambar kreatif dan pemahaman instruksi yang akurat
  • Dalam evaluasi preferensi manusia berbasis Elo di Alibaba AI Arena, model ini mencatat performa kelas tertinggi di antara model open source

Arsitektur model (S3-DiT)

  • Mengadopsi struktur Scalable Single-Stream DiT(S3-DiT)
    • Menggabungkan token teks, token semantik visual, dan token VAE gambar ke dalam satu sekuens
    • Memaksimalkan efisiensi parameter dibanding struktur dual-stream yang ada
  • Struktur ini memungkinkan pembelajaran representasi terpadu teks-gambar

Algoritme inti

  • Decoupled-DMD

    • Decoupled-DMD adalah algoritme distilasi inti yang memungkinkan inferensi 8 langkah pada Z-Image
    • DMD (Distribution Matching Distillation) yang ada dipisahkan menjadi dua mekanisme: augmentasi CFG (CA) dan pencocokan distribusi (DM)
      • CA berperan sebagai mesin utama dalam proses distilasi
      • DM berperan sebagai regularisasi untuk menjaga stabilitas dan kualitas output
    • Dengan memisahkan dan mengoptimalkan kedua mekanisme ini, dicapai pembuatan gambar berperforma tinggi bahkan dalam sedikit langkah
  • DMDR

    • DMDR(Distribution Matching Distillation with Reinforcement Learning) adalah teknik pascapemrosesan yang menggabungkan DMD dengan reinforcement learning (RL)
    • RL memaksimalkan performa DMD, sementara DMD meregularisasi RL dalam struktur yang saling melengkapi
    • Melalui ini, kesesuaian semantik, kualitas estetika, dan konsistensi struktural ditingkatkan, sekaligus memperkuat kemampuan mengekspresikan detail frekuensi tinggi

Dukungan komunitas dan ekosistem

  • Cache-DiT: mendukung akselerasi inferensi melalui DBCache, Context Parallelism, dan Tensor Parallelism
  • stable-diffusion.cpp: engine berbasis C++ yang memungkinkan menjalankan Z-Image bahkan di lingkungan VRAM 4GB
  • LeMiCa: menyediakan akselerasi inferensi tingkat timestep tanpa pelatihan
  • ComfyUI ZImageLatent: menyediakan antarmuka latent yang praktis untuk resolusi resmi

Ringkasan

  • Z-Image adalah model pembuat gambar open source berperforma tinggi yang menggabungkan struktur efisien (S3-DiT) dan teknik distilasi inovatif (Decoupled-DMD, DMDR)
  • Z-Image-Turbo mencapai inferensi cepat dan kualitas tinggi sekaligus, serta dapat dijalankan pada GPU kelas konsumen
  • Z-Image-Edit mendukung pengeditan gambar presisi berbasis bahasa alami
  • Di Alibaba AI Arena, model ini mencatat skor preferensi manusia kelas tertinggi di antara model open source
  • Ekosistem Z-Image terintegrasi dengan berbagai proyek komunitas dan sedang berkembang menjadi platform model generatif serbaguna

Belum ada komentar.

Belum ada komentar.