- Model diffusion telah membawa revolusi dalam pembuatan gambar, audio, dan video
- Namun, karena harus melalui proses generasi yang berulang, kecepatannya lambat sehingga sulit diterapkan secara real-time
- Model consistency mampu menghasilkan kualitas yang sangat baik hanya dalam 1~2 langkah tanpa Adversarial Training
- Kualitas juga meningkat jika model ini melakukan sampling beberapa kali
- Mendukung zero-shot data editing, image inpainting, colorization, super-resolution, dan lainnya tanpa pelatihan khusus
- Dapat dilatih dengan cara melakukan distilasi dari Diffusion Model yang telah dipra-latih atau sebagai model generatif yang berdiri sendiri
1 komentar
Makalahnya sudah lebih dulu dipublikasikan: Consistency Models https://arxiv.org/abs/2303.01469
Pada makalah pertama model Diffusion, proses generasi dilakukan melalui 1000 langkah, dan sekarang seiring perkembangan jumlahnya sudah turun menjadi di bawah 50 langkah,
sementara pembahasan tentang Distilled StableDiffusion2 yang memangkasnya menjadi 1~4 langkah juga sempat muncul pada akhir tahun lalu, tetapi makalahnya masih belum dipublikasikan.
https://twitter.com/EMostaque/status/1598131202044866560