- Artikel ini membahas upaya penulis untuk meningkatkan performa model open source Stable Diffusion XL 1.0 (SDXL) dari Stability AI. Model ini menghasilkan gambar dengan resolusi 1024x1024.
- SDXL terdiri dari dua model: model dasar dan model refiner opsional yang secara signifikan meningkatkan detail tanpa memengaruhi kecepatan.
- Penulis menggunakan library Python
diffusers dari Hugging Face untuk bekerja dengan SDXL, dan memberikan contoh cara memuat serta menggunakan model dasar maupun model refiner.
- Penulis menggunakan mesin virtual cloud dengan GPU L4 kelas menengah untuk menghasilkan gambar, dan menyebutkan bahwa setiap gambar 1024x1024 dibuat dalam sekitar 22 detik.
- Penulis bereksperimen dengan dua fitur baru di
diffusers: prompt weighting serta pelatihan dan inferensi Dreambooth LoRA.
- Prompt weighting meningkatkan hasil akhir dengan memungkinkan pembobotan matematis yang lebih besar pada istilah dalam embedding teks laten yang dihasilkan.
- Dukungan Dreambooth LoRA memungkinkan fine-tuning Stable Diffusion dengan sejumlah kecil gambar sumber dan kata kunci pemicu, sehingga "konsep" dari gambar tersebut dapat digunakan dalam konteks lain saat kata kunci itu diberikan.
- Penulis menguji potensi SDXL dengan melatih LoRA pada konsep Ugly Sonic, yang tidak ada dalam dataset asli Stable Diffusion. Hasilnya jauh lebih baik dan konsisten.
- Penulis juga melatih LoRA pada gambar sampah yang sangat terdistorsi dengan prompt "wrong". Harapannya, LoRA dapat menggunakan "wrong" sebagai "negative prompt" dan menghindari gambar semacam itu untuk menghasilkan gambar yang kurang terdistorsi.
- Penulis menemukan bahwa LoRA membuat SDXL lebih cerdas dan lebih setia pada maksud prompt, sehingga meningkatkan kualitas dan kejelasan gambar yang dihasilkan.
- Penulis menyimpulkan bahwa melatih SDXL pada gambar buruk merupakan bentuk reinforcement learning from human feedback (RLHF), mirip dengan teknik yang membuat ChatGPT sangat kuat.
- Penulis berencana untuk terus mengeksplorasi potensi "negative LoRAs", termasuk menggabungkannya dengan LoRA lain untuk meningkatkan performa.
1 komentar
Komentar Hacker News