Stable Diffusion - Open Source Text-To-Image yang mirip DALL-E

xguru · 2022-08-16T10:07:51+09:00

Model Latent Diffusion dilatih pada gambar 512x512 dari basis data LAION-5B Menggunakan encoder teks CLIP ViT-L/14, mirip dengan Imagen milik Google Cukup ringan sehingga dapat berjalan hanya dengan 1 GPU yang memiliki VRAM lebih dari 10GB Kolaborasi dan didukung oleh Stability AI dan para peneliti LAION

(github.com/CompVis)

11 poin oleh xguru 2022-08-16 | 1 komentar | Bagikan ke WhatsApp

Model Latent Diffusion dilatih pada gambar 512x512 dari basis data LAION-5B
Menggunakan encoder teks CLIP ViT-L/14, mirip dengan Imagen milik Google
Cukup ringan sehingga dapat berjalan hanya dengan 1 GPU yang memiliki VRAM lebih dari 10GB
Kolaborasi dan didukung oleh Stability AI dan para peneliti LAION

1 komentar

xguru 2022-08-16

Katanya, untuk bagian seperti ilustrasi seni modern, hasilnya bahkan lebih bagus daripada DALL-E 2 atau MidJourney.
Menurut pembicaraan di Discord pengembang, ini juga berjalan di Mac M1.
Untuk saat ini, karena batasan perangkat kerasnya kecil, tampaknya ini bisa menjadi keunggulan besar karena siapa pun bisa menggunakannya dengan mudah.
Tentu saja ini open source, tetapi untuk sekarang masih hanya bisa diakses untuk keperluan akademis.

Mengelola sendiri generator gambar AI seperti DALL-E
Imagen - model difusi text-to-image dari Google
LAION-400M - dataset pasangan gambar-teks berisi 400 juta item

Stable Diffusion - Open Source Text-To-Image yang mirip DALL-E

Bacaan terkait

1 komentar