- Makalah penelitian yang mendalami teknologi yang menggerakkan Stable Diffusion 3 telah dipublikasikan
- SD3 melampaui sistem generasi teks-ke-gambar mutakhir seperti DALL·E 3, Midjourney v6, dan Ideogram v1 dalam hal tipografi dan kepatuhan terhadap prompt berdasarkan evaluasi preferensi manusia
- Arsitektur baru Multimodal Diffusion Transformer (MMDiT) meningkatkan pemahaman teks dan kemampuan ejaan dibandingkan versi SD3 sebelumnya dengan menggunakan set bobot terpisah untuk representasi gambar dan bahasa
Kinerja
- Kinerja dievaluasi berdasarkan umpan balik manusia dengan membandingkan gambar keluaran Stable Diffusion 3 dengan berbagai model terbuka seperti SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, dan Pixart-α, serta sistem closed-source seperti DALL·E 3, Midjourney v6, dan Ideogram v1
- Hasil pengujian menunjukkan bahwa Stable Diffusion 3 setara atau melampaui sistem generasi teks-ke-gambar tercanggih saat ini di semua area di atas
- Dalam pengujian inferensi awal yang belum dioptimalkan, model SD3 terbesar memiliki 8B parameter, muat dalam 24GB VRAM pada RTX 4090, dan membutuhkan 34 detik untuk menghasilkan gambar beresolusi 1024x1024 saat menggunakan 50 langkah sampling
- Pada rilis awal, tersedia berbagai varian Stable Diffusion 3 mulai dari model 800m hingga 8B parameter, yang semakin menurunkan hambatan perangkat keras
Detail arsitektur
- Untuk generasi teks-ke-gambar, model perlu mempertimbangkan dua modalitas sekaligus: teks dan gambar
- Arsitektur baru ini disebut MMDiT, yang merujuk pada kemampuannya menangani beragam modalitas
- Seperti versi Stable Diffusion sebelumnya, model pra-latih digunakan untuk memperoleh representasi teks dan gambar yang sesuai
- Karena embedding teks dan gambar secara konseptual sangat berbeda, digunakan set bobot yang terpisah untuk kedua modalitas tersebut
- Dengan pendekatan ini, informasi dapat mengalir di antara token gambar dan teks sehingga meningkatkan pemahaman keseluruhan dan tipografi hasil keluaran
- Arsitektur ini dapat dengan mudah diperluas ke multimodalitas seperti video
Peningkatan Rectified Flows dengan Reweighting
- Stable Diffusion 3 menggunakan formulasi Rectified Flow (RF) yang menghubungkan data dan noise dengan lintasan linear selama pelatihan
- Ini menciptakan jalur inferensi yang lebih lurus sehingga sampling dapat dilakukan dengan lebih sedikit langkah
- Selain itu, jadwal sampling lintasan baru diperkenalkan dalam proses pelatihan untuk memberi bobot lebih besar pada bagian tengah lintasan
- Hasil pengujian yang membandingkan pendekatan ini dengan lintasan difusi lain menunjukkan bahwa formulasi RF sebelumnya meningkatkan kinerja pada rezim sampling dengan sedikit langkah, tetapi kinerja relatifnya menurun pada langkah yang lebih banyak
- Sebaliknya, varian RF yang diberi bobot ulang secara konsisten meningkatkan kinerja
Skala model Rectified Flow Transformer
- Studi scaling untuk sintesis teks-ke-gambar dilakukan menggunakan formulasi Rectified Flow yang diberi bobot ulang dan backbone MMDiT
- Penurunan validation loss yang mulus diamati baik terhadap ukuran model maupun jumlah langkah pelatihan
- Untuk menguji apakah ini benar-benar diterjemahkan menjadi peningkatan bermakna pada keluaran model, dievaluasi metrik penyelarasan gambar otomatis (GenEval) dan skor preferensi manusia (ELO)
- Hasilnya menunjukkan korelasi yang kuat antara metrik-metrik tersebut dan validation loss
- Tren scaling tidak menunjukkan tanda-tanda kejenuhan, sehingga prospeknya optimistis bahwa performa model dapat terus ditingkatkan di masa mendatang
Encoder teks yang fleksibel
- Untuk inferensi, kebutuhan memori SD3 dapat dikurangi secara signifikan dengan menghapus encoder teks T5 berukuran 4.7B parameter yang intensif memori, dengan kehilangan kinerja yang sangat kecil
- Penghapusan encoder teks ini tidak memengaruhi estetika visual (tingkat kemenangan setelah dihapus: 50%), dan hanya sedikit menurunkan kepatuhan terhadap teks (tingkat kemenangan 46%)
- Namun, menyertakan T5 tetap direkomendasikan untuk memaksimalkan kemampuan penuh SD3 dalam menghasilkan teks
1 komentar
Pendapat Hacker News
Komitmen Stability AI terhadap open source sangat menarik, dan semoga mereka bisa terus beroperasi selama mungkin.
Rendering teks di Stable Diffusion 3 mengesankan, tetapi teksnya selalu memiliki kesan khas yang terlalu diproses.
Pertanyaan apakah SD3 bisa diunduh.
Sangat menarik bahwa generator gambar akhirnya mulai bisa mengeja dengan benar.
Pengumuman SD3 sangat menarik.
Peningkatan rendering teks di SD3 bagus, tetapi menghasilkan tangan dan jari masih sulit.
Arsitektur ini cukup fleksibel untuk diperluas ke video dengan mudah.
Banyak perusahaan yang dulu berkomitmen pada "open" atau sebelumnya terbuka kini makin tertutup.
Berbeda dengan Stability AI, OpenAI adalah lab riset AI yang paling tertutup.