2 poin oleh GN⁺ 2023-08-23 | 1 komentar | Bagikan ke WhatsApp
  • Artikel ini membahas upaya penulis untuk meningkatkan performa model open source Stable Diffusion XL 1.0 (SDXL) dari Stability AI. Model ini menghasilkan gambar dengan resolusi 1024x1024.
  • SDXL terdiri dari dua model: model dasar dan model refiner opsional yang secara signifikan meningkatkan detail tanpa memengaruhi kecepatan.
  • Penulis menggunakan library Python diffusers dari Hugging Face untuk bekerja dengan SDXL, dan memberikan contoh cara memuat serta menggunakan model dasar maupun model refiner.
  • Penulis menggunakan mesin virtual cloud dengan GPU L4 kelas menengah untuk menghasilkan gambar, dan menyebutkan bahwa setiap gambar 1024x1024 dibuat dalam sekitar 22 detik.
  • Penulis bereksperimen dengan dua fitur baru di diffusers: prompt weighting serta pelatihan dan inferensi Dreambooth LoRA.
  • Prompt weighting meningkatkan hasil akhir dengan memungkinkan pembobotan matematis yang lebih besar pada istilah dalam embedding teks laten yang dihasilkan.
  • Dukungan Dreambooth LoRA memungkinkan fine-tuning Stable Diffusion dengan sejumlah kecil gambar sumber dan kata kunci pemicu, sehingga "konsep" dari gambar tersebut dapat digunakan dalam konteks lain saat kata kunci itu diberikan.
  • Penulis menguji potensi SDXL dengan melatih LoRA pada konsep Ugly Sonic, yang tidak ada dalam dataset asli Stable Diffusion. Hasilnya jauh lebih baik dan konsisten.
  • Penulis juga melatih LoRA pada gambar sampah yang sangat terdistorsi dengan prompt "wrong". Harapannya, LoRA dapat menggunakan "wrong" sebagai "negative prompt" dan menghindari gambar semacam itu untuk menghasilkan gambar yang kurang terdistorsi.
  • Penulis menemukan bahwa LoRA membuat SDXL lebih cerdas dan lebih setia pada maksud prompt, sehingga meningkatkan kualitas dan kejelasan gambar yang dihasilkan.
  • Penulis menyimpulkan bahwa melatih SDXL pada gambar buruk merupakan bentuk reinforcement learning from human feedback (RLHF), mirip dengan teknik yang membuat ChatGPT sangat kuat.
  • Penulis berencana untuk terus mengeksplorasi potensi "negative LoRAs", termasuk menggabungkannya dengan LoRA lain untuk meningkatkan performa.

1 komentar

 
GN⁺ 2023-08-23
Komentar Hacker News
  • Konsep RLHF yang dipersonalisasi (Reinforcement Learning from Human Feedback) sedang menarik perhatian, dan ini memiliki potensi untuk mengarahkan keluaran AI sesuai preferensi individu.
  • Diusulkan untuk menerapkan opsi umpan balik "suka/tidak suka" pada setiap gambar yang dihasilkan sistem AI, bersama label teks opsional untuk mengabaikan gambar yang "salah".
  • Muncul pertanyaan tentang loop iterasi tercepat yang mungkin untuk umpan balik, dan diajukan gagasan mengumpulkan sekitar 10k preferensi per detik guna meningkatkan probabilitas model menghasilkan gambar yang disukai secara pribadi.
  • Penggunaan Stable Diffusion (SD) untuk kreasi seni diakui, dan perbedaan antara SD 1.5/2.0 dan SDXL ditekankan sebagai hal yang penting.
  • Para data scientist mencatat semua penekanan tombol yang mereka lakukan di PC mereka, dan ini kini dianggap sebagai data yang berguna bagi sistem AI.
  • Dibagikan ide untuk menggunakan SDXL Base Model guna menghasilkan gambar dengan mencampurkan prompt dari berbagai gaya, lalu menggunakan hasilnya untuk melatih LoRA (Learning from Observations and Rewards), kemudian menghasilkan ulang dengan LoRA tersebut + prompt yang digunakan untuk membuat LoRA + set pelatihan itu.
  • Hasil dari proses di atas digambarkan sebagai efek yang diperkuat — lebih banyak kesalahan, lebih aneh, dalam resolusi tinggi.
  • Perilisan AI pembuat gambar dianggap kurang mendapat perhatian karena kebutuhan vram dan komputasi yang lebih tinggi, serta keluaran berkualitas lebih rendah dibanding model SD1.5 yang terspesialisasi.
  • Dilaporkan bahwa LORAs yang dibangun untuk Stable Diffusion XL hanya bekerja baik dengan prompt negatif yang umum.
  • Ada perdebatan tentang kemampuan untuk mengaktifkan beberapa LoRA sekaligus.
  • Penggunaan RLHF untuk membuat GPT3 lebih mudah digunakan diakui, dan ada harapan bahwa model masa depan akan memasukkan hasil buruk sebagai data pelatihan negatif.
  • Kemungkinan menggabungkan LoRA disebutkan, dan ada minat untuk menggunakan satu LoRA yang memuat subjek pribadi, LoRA lain untuk meningkatkan hasil, serta LoRA ketiga untuk gaya tertentu.