Makalah penelitian Stable Diffusion 3 dirilis

xguru · 2024-03-06T10:46:01+09:00

Makalah penelitian yang mendalami teknologi yang menggerakkan Stable Diffusion 3 telah dipublikasikan SD3 melampaui sistem generasi teks-ke-gambar mutakhir seperti DALL·E 3, Midjourney v6, dan Ideogram v1 dalam hal tipografi dan kepatuhan terhadap prompt berdasarkan evaluasi preferensi manusia Arsitektur baru Multimodal Diffusion Transformer (MMDiT) meningkatkan pemahaman teks dan kemampuan ejaan dibandingkan versi SD3 sebelumnya dengan menggunakan set bobot terpisah untuk representasi gambar dan bahasa Kinerja Kinerja dievaluasi berdasarkan umpan balik manusia dengan membandingkan gambar keluaran Stable Diffusion 3 dengan berbagai model terbuka seperti SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, dan Pixart-α, serta sistem closed-source seperti DALL·E 3, Midjourney v6, dan Ideogram v1 Hasil pengujian menunjukkan bahwa Stable Diffusion 3 setara atau melampaui sistem generasi teks-ke-gambar tercanggih saat ini di semua area di atas Dalam pengujian inferensi awal yang belum dioptimalkan, model SD3 terbesar memiliki 8B parameter, muat dalam 24GB VRAM pada RTX 4090, dan membutuhkan 34 detik untuk menghasilkan gambar beresolusi 1024x1024 saat menggunakan 50 langkah sampling Pada rilis awal, tersedia berbagai varian Stable Diffusion 3 mulai dari model 800m hingga 8B parameter, yang semakin menurunkan hambatan perangkat keras Detail arsitektur Untuk generasi teks-ke-gambar, model perlu mempertimbangkan dua modalitas sekaligus: teks dan gambar Arsitektur baru ini disebut MMDiT, yang merujuk pada kemampuannya menangani beragam modalitas Seperti versi Stable Diffusion sebelumnya, model pra-latih digunakan untuk memperoleh representasi teks dan gambar yang sesuai Karena embedding teks dan gambar secara konseptual sangat berbeda, digunakan set bobot yang terpisah untuk kedua modalitas tersebut Dengan pendekatan ini, informasi dapat mengalir di antara token gambar dan teks sehingga meningkatkan pemahaman keseluruhan dan tipografi hasil keluaran Arsitektur ini dapat dengan mudah diperluas ke multimodalitas seperti video Peningkatan Rectified Flows dengan Reweighting Stable Diffusion 3 menggunakan formulasi Rectified Flow (RF) yang menghubungkan data dan noise dengan lintasan linear selama pelatihan Ini menciptakan jalur inferensi yang lebih lurus sehingga sampling dapat dilakukan dengan lebih sedikit langkah Selain itu, jadwal sampling lintasan baru diperkenalkan dalam proses pelatihan untuk memberi bobot lebih besar pada bagian tengah lintasan Hasil pengujian yang membandingkan pendekatan ini dengan lintasan difusi lain menunjukkan bahwa formulasi RF sebelumnya meningkatkan kinerja pada rezim sampling dengan sedikit langkah, tetapi kinerja relatifnya menurun pada langkah yang lebih banyak Sebaliknya, varian RF yang diberi bobot ulang secara konsisten meningkatkan kinerja Skala model Rectified Flow Transformer Studi scaling untuk sintesis teks-ke-gambar dilakukan menggunakan formulasi Rectified Flow yang diberi bobot ulang dan backbone MMDiT Penurunan validation loss yang mulus diamati baik terhadap ukuran model maupun jumlah langkah pelatihan Untuk menguji apakah ini benar-benar diterjemahkan menjadi peningkatan bermakna pada keluaran model, dievaluasi metrik penyelarasan gambar otomatis (GenEval) dan skor preferensi manusia (ELO) Hasilnya menunjukkan korelasi yang kuat antara metrik-metrik tersebut dan validation loss Tren scaling tidak menunjukkan tanda-tanda kejenuhan, sehingga prospeknya optimistis bahwa performa model dapat terus ditingkatkan di masa mendatang Encoder teks yang fleksibel Untuk inferensi, kebutuhan memori SD3 dapat dikurangi secara signifikan dengan menghapus encoder teks T5 berukuran 4.7B parameter yang intensif memori, dengan kehilangan kinerja yang sangat kecil Penghapusan encoder teks ini tidak memengaruhi estetika visual (tingkat kemenangan setelah dihapus: 50%), dan hanya sedikit menurunkan kepatuhan terhadap teks (tingkat kemenangan 46%) Namun, menyertakan T5 tetap direkomendasikan untuk memaksimalkan kemampuan penuh SD3 dalam menghasilkan teks

(stability.ai)

13 poin oleh xguru 2024-03-06 | 1 komentar | Bagikan ke WhatsApp

Makalah penelitian yang mendalami teknologi yang menggerakkan Stable Diffusion 3 telah dipublikasikan
SD3 melampaui sistem generasi teks-ke-gambar mutakhir seperti DALL·E 3, Midjourney v6, dan Ideogram v1 dalam hal tipografi dan kepatuhan terhadap prompt berdasarkan evaluasi preferensi manusia
Arsitektur baru Multimodal Diffusion Transformer (MMDiT) meningkatkan pemahaman teks dan kemampuan ejaan dibandingkan versi SD3 sebelumnya dengan menggunakan set bobot terpisah untuk representasi gambar dan bahasa

Kinerja

Kinerja dievaluasi berdasarkan umpan balik manusia dengan membandingkan gambar keluaran Stable Diffusion 3 dengan berbagai model terbuka seperti SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, dan Pixart-α, serta sistem closed-source seperti DALL·E 3, Midjourney v6, dan Ideogram v1
Hasil pengujian menunjukkan bahwa Stable Diffusion 3 setara atau melampaui sistem generasi teks-ke-gambar tercanggih saat ini di semua area di atas
Dalam pengujian inferensi awal yang belum dioptimalkan, model SD3 terbesar memiliki 8B parameter, muat dalam 24GB VRAM pada RTX 4090, dan membutuhkan 34 detik untuk menghasilkan gambar beresolusi 1024x1024 saat menggunakan 50 langkah sampling
Pada rilis awal, tersedia berbagai varian Stable Diffusion 3 mulai dari model 800m hingga 8B parameter, yang semakin menurunkan hambatan perangkat keras

Detail arsitektur

Untuk generasi teks-ke-gambar, model perlu mempertimbangkan dua modalitas sekaligus: teks dan gambar
Arsitektur baru ini disebut MMDiT, yang merujuk pada kemampuannya menangani beragam modalitas
Seperti versi Stable Diffusion sebelumnya, model pra-latih digunakan untuk memperoleh representasi teks dan gambar yang sesuai
Karena embedding teks dan gambar secara konseptual sangat berbeda, digunakan set bobot yang terpisah untuk kedua modalitas tersebut
Dengan pendekatan ini, informasi dapat mengalir di antara token gambar dan teks sehingga meningkatkan pemahaman keseluruhan dan tipografi hasil keluaran
Arsitektur ini dapat dengan mudah diperluas ke multimodalitas seperti video

Peningkatan Rectified Flows dengan Reweighting

Stable Diffusion 3 menggunakan formulasi Rectified Flow (RF) yang menghubungkan data dan noise dengan lintasan linear selama pelatihan
Ini menciptakan jalur inferensi yang lebih lurus sehingga sampling dapat dilakukan dengan lebih sedikit langkah
Selain itu, jadwal sampling lintasan baru diperkenalkan dalam proses pelatihan untuk memberi bobot lebih besar pada bagian tengah lintasan
Hasil pengujian yang membandingkan pendekatan ini dengan lintasan difusi lain menunjukkan bahwa formulasi RF sebelumnya meningkatkan kinerja pada rezim sampling dengan sedikit langkah, tetapi kinerja relatifnya menurun pada langkah yang lebih banyak
Sebaliknya, varian RF yang diberi bobot ulang secara konsisten meningkatkan kinerja

Skala model Rectified Flow Transformer

Studi scaling untuk sintesis teks-ke-gambar dilakukan menggunakan formulasi Rectified Flow yang diberi bobot ulang dan backbone MMDiT
Penurunan validation loss yang mulus diamati baik terhadap ukuran model maupun jumlah langkah pelatihan
Untuk menguji apakah ini benar-benar diterjemahkan menjadi peningkatan bermakna pada keluaran model, dievaluasi metrik penyelarasan gambar otomatis (GenEval) dan skor preferensi manusia (ELO)
Hasilnya menunjukkan korelasi yang kuat antara metrik-metrik tersebut dan validation loss
Tren scaling tidak menunjukkan tanda-tanda kejenuhan, sehingga prospeknya optimistis bahwa performa model dapat terus ditingkatkan di masa mendatang

Encoder teks yang fleksibel

Untuk inferensi, kebutuhan memori SD3 dapat dikurangi secara signifikan dengan menghapus encoder teks T5 berukuran 4.7B parameter yang intensif memori, dengan kehilangan kinerja yang sangat kecil
Penghapusan encoder teks ini tidak memengaruhi estetika visual (tingkat kemenangan setelah dihapus: 50%), dan hanya sedikit menurunkan kepatuhan terhadap teks (tingkat kemenangan 46%)
Namun, menyertakan T5 tetap direkomendasikan untuk memaksimalkan kemampuan penuh SD3 dalam menghasilkan teks

1 komentar

xguru 2024-03-06

Pendapat Hacker News

Komitmen Stability AI terhadap open source sangat menarik, dan semoga mereka bisa terus beroperasi selama mungkin.
- Penasaran apakah Stable Diffusion 3 masih menggunakan CLIP milik OpenAI untuk tokenisasi dan embedding teks.
- Saya hanya berasumsi mereka akan meningkatkan bagian arsitektur model tersebut agar lebih sesuai dengan prompt teks dan gambar.
Rendering teks di Stable Diffusion 3 mengesankan, tetapi teksnya selalu memiliki kesan khas yang terlalu diproses.
- Warna teks selalu tampak dinaikkan ke satu nilai tertentu, sehingga terlihat seperti teks yang ditambahkan secara sederhana oleh amatir ke gambar berkualitas tinggi.
Pertanyaan apakah SD3 bisa diunduh.
- Saya pernah menjalankan versi awal SD secara lokal dan itu sangat bagus.
- Penasaran apakah ini sudah beralih menjadi SAAS seperti banyak LLM yang awalnya menjanjikan untuk self-hosting.
Sangat menarik bahwa generator gambar akhirnya mulai bisa mengeja dengan benar.
- Kemampuan ejaan DALL-E 3 sempat disorot, tetapi setelah mencoba Bing hasilnya terasa kurang konsisten.
- Saya ingin membaca penjelasan yang tidak terlalu teknis tentang tantangan dalam membuat ejaan yang benar dan alasannya.
- Penasaran apakah SD3 bisa merapikan atau memperbaiki masalah teks pada gambar lama.
Pengumuman SD3 sangat menarik.
- Makalahnya memuat detail yang jauh lebih lengkap daripada blognya.
- Poin utama makalah ini adalah bahwa arsitekturnya dapat mencakup encoder teks yang lebih ekspresif, dan ini terbukti membantu untuk adegan yang kompleks.
- Dari sisi pelatihan, mereka belum mencapai batas stack ini, jadi saya berharap SD3.1 akan lebih baik lagi, dan memperkirakan SD4 dapat menambahkan lebih banyak encoding front-end untuk pemrosesan video.
Peningkatan rendering teks di SD3 bagus, tetapi menghasilkan tangan dan jari masih sulit.
- Gambar contoh tidak menampilkan tangan manusia kecuali penyihir berpiksel, dan tangan monyetnya terlihat agak aneh.
Arsitektur ini cukup fleksibel untuk diperluas ke video dengan mudah.
- Saya berharap ini akan menjadi blok "dasar" lain seperti blok transformer milik LLaMA.
- Ini cukup umum sehingga pengondisian encoding teks/timestep dapat diintegrasikan ke dalam blok dengan berbagai cara.
- Hampir tidak banyak lagi yang tersisa untuk dikerjakan selain bereksperimen dengan positional encoding (2D RoPE?).
- Memperbesar transformer dan berfokus pada kuantisasi/optimisasi agar stack ini bisa berjalan dengan baik di mana-mana.
Banyak perusahaan yang dulu berkomitmen pada "open" atau sebelumnya terbuka kini makin tertutup.
- Saya menghargai Stability AI yang menerbitkan makalah penelitian seperti ini.
Berbeda dengan Stability AI, OpenAI adalah lab riset AI yang paling tertutup.
- Bahkan Deep Mind pun menerbitkan lebih banyak makalah.
- Penasaran apakah ada orang di dalam OpenAI yang secara terbuka berkata, "Kami di sini demi uang!"
- Surat yang baru-baru ini ditulis SamA tentang persidangan Elon sama benarnya dengan klaim Putin bahwa ia menginvasi Ukraina untuk "denazifikasi".