Stable Cascade yang Stabil
(github.com/Stability-AI)Pengenalan Stable Cascade
- Stable Cascade berbasis pada arsitektur Würstchen, dan dibandingkan dengan model lain (misalnya Stable Diffusion), ciri khasnya adalah beroperasi dalam ruang laten yang jauh lebih kecil.
- Semakin kecil ruang laten, semakin cepat kecepatan inferensi dan semakin murah biaya pelatihannya.
- Stable Cascade mencapai rasio kompresi 42x yang dapat memampatkan gambar 1024x1024 menjadi 24x24, sehingga memungkinkan rekonstruksi gambar yang tajam meskipun tingkat kompresinya tinggi.
Ikhtisar model
- Stable Cascade terdiri dari model 3 tahap (Stage A, B, C) untuk pembuatan gambar.
- Stage A dan B bertugas untuk kompresi gambar, sedangkan Stage C menghasilkan gambar laten 24x24 berdasarkan prompt teks.
- Stage C tersedia dalam versi 1 miliar dan 3,6 miliar parameter, sementara Stage B tersedia dalam versi 700 juta dan 1,5 miliar parameter.
- Stage A memiliki 20 juta parameter dan tetap digunakan karena ukurannya kecil.
Memulai
- Cara menjalankan model Stable Cascade tersedia melalui notebook yang disediakan di bagian inferensi.
- Notebook disediakan untuk berbagai kasus penggunaan seperti text-to-image, variasi gambar, dan image-to-image.
- Model ini juga dapat diakses melalui library diffusers 🤗, dan dokumentasi serta cara penggunaannya juga disediakan.
Pelatihan
- Kode untuk melatih Stable Cascade dari awal, atau melatih ControlNet dan LoRA, telah disediakan.
- Penjelasan lebih rinci tentang cara pelatihan dapat dilihat di folder pelatihan.
Catatan
- Codebase masih berada pada tahap pengembangan awal, sehingga mungkin ada error tak terduga atau kode pelatihan dan inferensi yang belum dioptimalkan.
- Jika ada minat, pembaruan berkelanjutan akan disediakan, dan ide, masukan, atau pembaruan dari siapa pun yang ingin berkontribusi sangat disambut.
GN⁺ berpendapat:
- Stable Cascade menghadirkan pendekatan baru yang menekankan efisiensi di bidang pembuatan gambar. Secara khusus, penggunaan ruang laten yang lebih kecil sehingga mewujudkan kecepatan inferensi yang cepat dan biaya pelatihan yang murah patut diperhatikan.
- Keunggulan lainnya adalah fleksibilitas dengan menyediakan model dalam berbagai ukuran parameter sehingga pengguna dapat memilih model terbaik sesuai kebutuhan yang lebih spesifik.
- Teknologi ini dapat digunakan di berbagai bidang aplikasi seperti pembuatan gambar, variasi, peningkatan super-resolusi, dan dapat memberikan kontribusi penting bagi riset computer vision dan kecerdasan buatan.
Belum ada komentar.