Eksperimen yang Membuat Stable Diffusion XL Lebih Pintar dengan Gambar Buatan AI yang Buruk

(minimaxir.com)

2 poin oleh GN⁺ 2023-08-23 | 1 komentar | Bagikan ke WhatsApp

Stable Diffusion XL 1.0 adalah model open source yang dapat menghasilkan gambar 1024x1024 secara bawaan, dan dukungan diffusers serta model refiner menurunkan hambatan masuk untuk eksperimen pribadi
Dreambooth LoRA adalah pendekatan yang melatih hanya adaptor kecil tanpa melatih ulang seluruh model, sehingga konsep tertentu bisa ditambahkan dengan cepat dan mudah dibagikan
Eksperimen utamanya adalah melatih SDXL dengan mengaitkan gambar berkualitas rendah dan terdistorsi buatan SDXL ke wrong, lalu membandingkan apakah hasil generasi membaik saat ini dimasukkan sebagai negative prompt
LoRA wrong menunjukkan beberapa kasus di berbagai prompt yang membuat pencahayaan, tekstur, tata letak, representasi tangan dan lengan, serta kepatuhan terhadap prompt menjadi lebih baik daripada SDXL dasar atau sekadar negative prompt wrong
Karena memilih gambar buruk dan melatih model tentang arah yang harus dihindari, ini merupakan pendekatan yang dekat dengan negative LoRA dan RLHF, sementara pembuatan data dan waktu pelatihannya masih menyisakan ruang perbaikan

SDXL 1.0 dan lingkungan eksperimen

Stability AI bulan lalu merilis Stable Diffusion XL 1.0 dan mendistribusikannya sebagai open source
SDXL adalah salah satu model open source yang dapat menghasilkan gambar beresolusi 1024x1024 secara bawaan tanpa jalan pintas tambahan, sehingga bisa menghasilkan lebih banyak detail
Model ini terdiri dari dua bagian
- base model: bertanggung jawab atas generasi gambar dasar
- refiner model: meningkatkan detail secara signifikan, dan karena tidak memiliki overhead kecepatan, konfigurasi yang disarankan adalah menggunakannya bersama bila memungkinkan
diffusers dari Hugging Face mendukung SDXL dan optimasi performa, sehingga eksperimen bisa dilakukan hanya dengan sedikit mengubah kode contoh
Eksperimen dilakukan di Spot instance Google Cloud Platform dengan GPU NVIDIA L4
- Biaya total $0,24 per jam
- Membutuhkan sekitar 22 detik untuk menghasilkan satu gambar 1024x1024
- Pada GPU kelas menengah, hanya satu gambar yang bisa dihasilkan dalam satu waktu
- Resolusi yang lebih rendah memang lebih cepat, tetapi hasilnya jauh lebih buruk sehingga tidak direkomendasikan

Bobot prompt dan Dreambooth LoRA di diffusers

diffusers mendukung dua fitur yang tidak digunakan dalam eksperimen Stable Diffusion sebelumnya
- Bobot prompt
- Pelatihan dan inferensi Dreambooth LoRA
Bobot prompt memanfaatkan compel untuk mengatur tingkat pentingnya kata atau frasa secara lebih matematis
- Menambahkan beberapa + atau - pada kata untuk menaikkan atau menurunkan tingkat kepentingannya pada embedding hasil
- Frasa dapat diapit tanda kurung untuk memperkuat ekspresi medium tertentu, seperti San Francisco landscape by Salvador Dali, (oil on canvas)+++
Dalam pengujian, cara ini meredakan sebagian besar kesulitan penyesuaian prompt yang muncul sejak Stable Diffusion 2.0
- guidance_scale bawaan adalah 7.5
- Max Woolf lebih menyukai 13, dan semua contoh LoRA dalam tulisan ini juga memakai guidance_scale 13
Dreambooth adalah teknik untuk mengajarkan konsep tertentu kepada Stable Diffusion dengan sejumlah kecil gambar asli dan kata kunci pemicu
LoRA melatih hanya adaptor kecil untuk model visual, bukan seluruh model Stable Diffusion
- Dapat dilatih dalam sekitar 10 menit pada satu GPU murah
- Kualitas model akhir + LoRA mirip dengan fine-tuning penuh
- Disimpan sebagai file biner kecil sehingga mudah dibagikan
- Pekerjaan yang biasanya disebut fine-tuning Stable Diffusion sering kali sebenarnya adalah pembuatan LoRA
- Hanya satu LoRA yang dapat diaktifkan pada satu waktu, dan beberapa LoRA bisa digabungkan, tetapi itu pekerjaan yang rumit

Potensi SDXL yang terlihat melalui Ugly Sonic LoRA

Sebelum LoRA digunakan luas, textual inversion digunakan untuk mengajarkan konsep ke text encoder, tetapi pelatihannya memakan waktu lama dan hasilnya bisa sulit ditangani
Sebelumnya, karakter meme Ugly Sonic yang tidak ada di dataset asli Stable Diffusion pernah dilatih dengan textual inversion, tetapi hasilnya campuran
Untuk memeriksa potensi SDXL, Ugly Sonic dilatih kembali sebagai LoRA
- Menggunakan skrip train_dreambooth_lora_sdxl.py dari Hugging Face
- Beberapa parameter disesuaikan, tetapi pada dasarnya langsung berjalan
Ugly Sonic LoRA yang telah dilatih menghasilkan gambar yang jauh lebih baik dan konsisten pada berbagai prompt dibanding sebelumnya

Desain eksperimen LoRA `wrong`

Eksperimen textual inversion terkait negative prompt sebelumnya dilakukan ulang dengan SDXL LoRA, dengan melatih gambar terdistorsi dan berkualitas rendah yang dikaitkan ke prompt wrong
Tujuannya adalah memastikan apakah saat wrong digunakan sebagai negative prompt, model dapat menjauh dari gambar semacam itu dan membuat gambar yang lebih tidak terdistorsi
Gambar wrong sintetis dibuat dengan SDXL itu sendiri
- Jupyter Notebook generator gambar wrong ditulis untuk itu
- Berbagai bobot prompt digunakan agar jenis gambar buruk seperti blurry dan bad hands menjadi lebih terbedakan
- SDXL harus digunakan lagi untuk membuat gambar beresolusi tinggi tetapi berkualitas rendah
Gambar wrong yang dihasilkan tampak seperti sampul album punk rock era 2000-an, atau terlihat normal sekilas tetapi jika diperhatikan memiliki karakteristik uncanny valley yang mengganggu
sdxl-wrong-lora dimuat ke SDXL base model
- LoRA tidak diperlukan untuk refiner
- Jupyter Notebook untuk perbandingan juga dipublikasikan

Metode perbandingan dan hasil representatif

Ada tiga objek perbandingan
- Pipeline base + refiner tanpa LoRA
- Pipeline tanpa LoRA dengan wrong dimasukkan sebagai negative prompt
- Pipeline dengan LoRA wrong diterapkan dan wrong dimasukkan sebagai negative prompt
Semua generasi menggunakan seed yang sama untuk menjaga komposisi foto tetap mirip dan memudahkan perbandingan pengaruh negative prompt wrong serta LoRA
A wolf in Yosemite National Park, chilly nature documentary film photography
- Memasukkan wrong pada model dasar menambahkan sebagian daun dan kedalaman pada gambar hutan
- LoRA lebih meningkatkan pencahayaan, bayangan, detail daun, dan mengubah komposisi sehingga serigala menatap kamera
An extreme close-up of a wolf in Yosemite National Park, chilly nature documentary film photography
- Hasil LoRA lebih baik dalam tekstur, kesan hidup, dan ketajaman
- Sekadar menambahkan prompt wrong saja juga mengubah sudut pandang
a large delicious hamburger (in the shape of five-dimensional alien geometry)++++, professional food photography
- Meski sudah mencoba berbagai rekayasa prompt, hamburger geometri alien lima dimensi tetap tidak bisa ditangani dengan benar
- SDXL dasar tampaknya menghasilkan sesuatu yang menafsirkan alien lebih harfiah dari perkiraan
- LoRA membuat hamburger “alien” yang sulit dimakan manusia dan tampilan yang lebih berkilau
lossless PDF scan of the front page of the January 2038 issue of the Wall Street Journal featuring a cover story about (evil robot world domination)++
- Keterbacaan teks membaik dibanding Stable Diffusion 2.0, tetapi ketiga kasusnya serupa
- LoRA memperbaiki komposisi halaman yang lebih modern, tata letak artikel yang lebih beragam, dan ketebalan relatif font judul
- Model dasar tetap terlihat monoton seperti kertas cokelat tua meski diberi negative prompt wrong
USA President Taylor Swift (signing papers)++++, photo taken by the Associated Press
- Pada SDXL dasar, lengan kanan sangat tidak realistis, dan menambahkan wrong saja membuatnya lebih buruk
- Pada LoRA, masalah lengan diperbaiki, dan warna jaket juga menjadi lebih mendekati putih yang jelas, bukan putih kekuningan
- Namun, membuat manusia dengan SDXL 1.0 masih sulit dan kurang dapat diandalkan, dengan catatan agar jangan melihat tangan terlalu dekat

Perubahan yang terlihat pada contoh tambahan

realistic human Shrek blogging at a computer workstation, hyperrealistic award-winning photo for vanity fair
- Tangan dan pencahayaan lebih baik, detail pakaian serta latar belakang menjadi lebih menarik
pepperoni pizza in the shape of a heart, hyperrealistic award-winning professional food photography
- Detail pepperoni dan gelembung akibat panas terlihat lebih baik, pepperoni berlebihan di pinggir berkurang, dan crust terlihat lebih renyah
presidential painting of realistic human Spongebob Squarepants wearing a suit, (oil on canvas)+++++
- Hidung Spongebob muncul kembali, dan kancing jas menjadi lebih banyak
San Francisco panorama attacked by (one massive kitten)++++, hyperrealistic award-winning photo by the Associated Press
- LoRA benar-benar menunjukkan upaya untuk mengikuti prompt
hyperrealistic death metal album cover featuring edgy moody realistic (human Super Mario)++, edgy and moody
- Proporsi Mario menjadi lebih dekat dengan karakter gim, dan pencahayaan karakter lebih tajam serta muram

Materi publik dan cara mereproduksi

LoRA wrong tersedia di Hugging Face
Efektivitasnya tidak dapat dijamin pada antarmuka selain diffusers
Notebook yang digunakan untuk generasi gambar tersedia di repository GitHub
Colab Notebook untuk SDXL 1.0 umum + refiner + LoRA wrong dapat dijalankan pada GPU T4 gratis
Versi beresolusi tinggi dari gambar generasi yang digunakan dalam tulisan ini dapat dilihat di source code post

Mengapa LoRA `wrong` bekerja

Perkiraannya adalah LoRA wrong hanya akan meningkatkan kualitas dan ketajaman gambar, tetapi hasil sebenarnya lebih dekat pada membuat SDXL bertindak lebih setia terhadap maksud prompt
Secara teknis, negative prompt menetapkan area ruang laten tempat proses difusi dimulai
- Saat menggunakan negative prompt wrong tanpa LoRA
- Saat menggunakan negative prompt wrong dengan LoRA diterapkan
- Area awal kedua kasus tersebut sama
Secara intuitif, ini dapat ditafsirkan bahwa LoRA membentuk ulang area yang tidak diinginkan dalam ruang laten berdimensi tinggi agar lebih mirip dengan area awal, sehingga menurunkan kemungkinan generasi umum mencapai area tersebut dan memperbaiki hasil
Cara meningkatkan SDXL dengan melatihnya menggunakan gambar buruk secara teknis dapat dilihat sebagai salah satu bentuk RLHF
- OpenAI meningkatkan model melalui interaksi pengguna yang positif dan secara implisit mengurangi perilaku negatif
- Eksperimen ini menggunakan gambar yang dipilih pengguna sebagai buruk untuk secara implisit meningkatkan perilaku positif
Dreambooth LoRA tidak membutuhkan data input sebanyak model bahasa besar

Ruang pengembangan yang tersisa dan eksperimen berikutnya

negative LoRA masih memiliki banyak bagian yang bisa diperbaiki
- Parameter pembuatan synthetic dataset dapat dipoles lebih lanjut
- LoRA dapat dilatih lebih lama
Apakah performa dapat ditingkatkan dengan menggabungkannya bersama LoRA lain juga menjadi target pengujian
- Secara khusus, kombinasi LoRA wrong dan Ugly Sonic LoRA diajukan sebagai contoh
SDXL juga mendukung model diffusers untuk ControlNet
- ControlNet dapat mengontrol bentuk dan komposisi keseluruhan gambar yang dihasilkan secara kuat
- ControlNet juga dapat digunakan bersama LoRA
Alasan penelitian peningkatan kualitas generasi gambar AI ini menekankan jurnalisme AI yang transparan
- Termasuk publikasi prompt yang dapat direproduksi dan Jupyter Notebook
- Dalam lingkungan modal ventura saat ini, peningkatan baru generasi gambar AI dari industri kemungkinan tidak akan dibuka ke publik
- Juga dinyatakan sikap bahwa ini tidak mendukung atau membenarkan penggantian seniman profesional dengan AI

1 komentar

GN⁺ 2023-08-23

Opini Hacker News

Konsep RLHF yang dipersonalisasi benar-benar menarik
Seiring meningkatnya interaksi dengan sistem AI generatif tertentu, sepertinya akan terkumpul data interaksi yang cukup untuk menyesuaikan output secara bermakna ke arah preferensi pribadi. Akan bagus jika UI ditingkatkan agar proses ini dibuat setransparan mungkin
Dari sudut pandang produk, tampaknya mudah untuk menambahkan umpan balik “suka/tidak suka” pada semua gambar yang dihasilkan, serta label teks opsional untuk menimpa wrong. Setelah umpan balik manusia yang cukup terkumpul, atau dengan menjalankan batch job setiap malam, LoRA baru dapat dilatih ulang sesuai preferensi pribadi
Umpan balik manusia juga bisa dikumpulkan dari pencarian pohon implisit, ketika prompt menghasilkan N kandidat gambar lalu satu dipilih untuk disempurnakan. Secara lebih eksplisit, bisa juga disediakan UI untuk memberi peringkat/skor pada batch dengan cepat, atau tempat sampah untuk membuang gambar yang tidak disukai di setiap tahap iterasi perbaikan, lalu nantinya mengumpulkan umpan balik negatif itu untuk dimasukkan ke pembaruan LoRA per proyek/global
Saya juga penasaran sejauh apa siklus iterasi terpendek bisa dicapai jika dibuat loop umpan balik yang sangat singkat, dengan reaksi melalui penekanan tombol segera setelah gambar dibuat. Jika seseorang terikat pada perangkat selama beberapa jam dan mengumpulkan sekitar 10 ribu preferensi dengan laju 1 per detik, apakah model bisa menjadi jauh lebih baik dalam menghasilkan gambar yang secara pribadi akan disukai? Namun ini cukup intens, terasa seperti Clockwork Orange
Saya tidak melihat jumlah gambar wrong di tulisannya, tetapi setelah menengok kodenya, tampaknya tidak banyak: 13 kata kunci dengan kira-kira 6 gambar per kata kunci. Jika model bisa disesuaikan sejauh ini hanya dengan sekitar 100 umpan balik, itu jumlah yang mengejutkan kecil
- AI Horde pada dasarnya sedang mengimplementasikan alur ini lewat kerja sama dengan Stability.ai
  AI Horde adalah klaster terdistribusi open source yang dijalankan dengan GPU dari para relawan, dan Stability.ai menyediakan sebagian sumber daya GPU untuk menjalankan A/B test
  Jika Anda meminta gambar dengan model SDXL melalui Lucid Creations, UI AI Horde, atau ArtBot buatan sendiri, Anda akan menerima 2 gambar. Satu dibuat dengan SDXL v1.0, satu lagi dengan model yang telah diperbarui, tetapi Anda tidak tahu yang mana
  Pengguna cukup memilih gambar yang lebih disukai dari keduanya, lalu hasilnya dikirim kembali ke Stability.ai untuk dianalisis dan dimasukkan ke model gambar di masa mendatang
  Selain itu, AI Horde dan LAION juga bekerja sama dengan cara serupa untuk menyediakan penilaian estetika kustom pengguna demi tujuan yang sama
  https://aihorde.net/
  https://dbzer0.com/blog/stable-diffusion-xl-beta-on-the-ai-h...
  https://dbzer0.itch.io/lucid-creations
  https://tinybots.net/artbot
  https://laion.ai/blog/laion-stable-horde/
- Benar. 6 nilai CFG × 13 kata kunci = 78 gambar
  Namun sebagian tidak terlalu berguna. Misalnya, “random text” kadang tampaknya menghasilkan sesuatu seperti aplikasi SMS jadul
  LoRA bekerja dengan baik dan bisa hanya membutuhkan 4–5 gambar, tetapi itu untuk Stable Diffusion yang lebih lama dan lebih kecil. Karena itu, untuk SDXL saya memakai lebih banyak gambar dan melatih LoRA sedikit lebih lama. Sebagai perbandingan, Ugly Sonic LoRA memakai sekitar 14 gambar, dan mungkin mengalami overfitting
- Anda mungkin tertarik dengan framework open source yang sedang kami kembangkan: https://github.com/agentic-ai/enact
  Masih tahap awal, tetapi insight intinya adalah bahwa banyak alur AI generatif—baik teks maupun gambar, baik model tunggal maupun rantai model—perlu diselaraskan dengan suatu bentuk sinyal umpan balik, jadi masuk akal untuk membangun infrastruktur dasar yang mendukungnya. Salah satu demo awal kami persis alur seperti ini, dan memakai perbaikan prompt sebagai pengganti murah untuk penyetelan bobot model sebenarnya
  Secara garis besar, kami ingin membangun infrastruktur inti di level Python yang memungkinkan alur ditulis dengan mudah hampir seperti Python native, serta melacak eksekusi alur generatif termasuk eksekusi “komponen manusia” seperti evaluator. Kami juga mendukung time travel/rewind/rerun, UI gradio otomatis, dan FastAPI, tetapi dua yang terakhir masih sangat eksperimental
  Dalam jangka menengah, kami ingin membuat alur generatif apa pun mudah dibungkus sebagai alur “evaluasi manusia”, otomatis di-deploy sebagai API atau UI gradio, lalu diselaraskan dengan berbagai teknik seperti RLHF, fine-tuning, dan A/B test subkomponen generatif
  Saat ini kami fokus membangun “kerangka” dengan benar, tetapi dokumentasi quick start https://github.com/agentic-ai/enact/blob/main/examples/quick... dan README https://github.com/agentic-ai/enact/tree/main#why-enact cukup menunjukkan arahnya. Kami mencari orang yang mau mencoba atau berkontribusi
- RLHF adalah reinforcement learning from human feedback
  Bukankah sistem seperti ini memang sudah dilatih berdasarkan umpan balik manusia untuk memberi skor lebih tinggi pada yang baik dan lebih rendah pada yang buruk?
- RLHF implisit bekerja lebih baik daripada cara eksplisit
  Mirip dengan Mom test: ketika Anda meminta orang menilai sesuatu, pertanyaan itu sendiri memengaruhi penilaiannya
  Alur upscale bisa dipakai, tetapi tidak harus dibatasi seperti Midjourney berbasis Discord. Semua gambar ukuran penuh bisa ditampilkan, dan perilaku seperti apakah pengguna menyalin/menyimpan/klik kanan juga bisa dideteksi
Membuat seni dengan Stable Diffusion benar-benar sudah menjadi hobi yang menyenangkan
Perbedaan antara SD 1.5/2.0 dan SDXL sangat besar, dan mengesankan melihat kualitasnya meningkat secepat ini
- Bisa jelaskan mengapa perbedaan antara SD 1.5/2.0 dan SDXL begitu besar?
  Aku belum pernah mencoba SDXL, tapi sudah sangat banyak memakai 1.5
  Sejauh ini aku memahaminya sebatas resolusi lebih tinggi dan “kualitas” lebih tinggi, tetapi karena sudah lama memakai realistic vision 3, aku tidak pernah mengalami masalah kualitas. Dengan upscaling, aku juga tidak membutuhkan resolusi yang lebih tinggi
Sekitar 5 tahun lalu, di kalangan sebagian data scientist sempat populer untuk menyimpan catatan semua ketikan tombol di PC, dan sekarang agak iri melihat data itu ternyata benar-benar cukup berguna
Aku punya koleksi 30 ribu gambar anime favorit, dan 5 tahun lalu juga sudah memberi peringkat kompetitif berdasarkan skor estetika, jadi sepertinya lumayan berguna untuk hal seperti ini
Sangat keren. Aku berniat segera mencoba menjalankan ide ini sendiri. Aku juga agak ilmuwan :)
Beberapa hari lalu aku mencoba sesuatu yang menarik. Aku memakai SDXL Base Model lewat Diffusers untuk menghasilkan gambar dengan mencampur berbagai prompt gaya, lalu melatih LoRA dengan gambar-gambar itu, kemudian menghasilkan lagi menggunakan LoRA ini dan prompt yang dipakai untuk membuat set pelatihan
Hasilnya efeknya makin kuat, jadi lebih glitchy, lebih aneh, dan terasa beresolusi tinggi
Hasilnya ada di https://imgur.com/gallery/vUobKPK
Tentu saja aku akan melatih LoRA lain dengan hasil generasi ini dan mengulang prosesnya
Kalau dipikir-pikir, ini cara yang cukup bagus untuk melewati batas 77 token di Diffusers dan mengembangkan jauh lebih banyak gaya
LoRA bisa dicoba di https://replicate.com/galleri5/nammeh. Perlu akun GitHub
Aku juga akan segera mengunggahnya ke CivitAI
Akan bagus kalau LoRa juga diunggah ke civitai.com dan Reddit Stable Diffusion
Hasilnya terlihat cukup bagus dan aku menantikan untuk mencobanya. Aku tidak tahu antusiasme terhadap gambar generatif sudah mereda; karena aku masih memakainya secara rutin, rasanya selalu masih jadi topik hangat
- Rilis awalnya sudah kuunggah ke /r/StableDiffusion, tetapi semua komentarnya hanya “kenapa tidak kompatibel dengan A1111?”, dan aku tidak menemukan skrip yang bagus untuk konversi: https://www.reddit.com/r/StableDiffusion/comments/15r5k3i/i_...
  Civitai mengambil LoRA itu dan mempostingnya: https://civitai.com/models/128708/sdxl-wrong-lora
- Orang cenderung berasumsi semua orang seperti mereka berdasarkan kebiasaan sendiri, dan aku juga cukup sering begitu. Dari sudut pandangku, antusiasme terhadap gambar generatif masih panas
  Kalau aku tidak terlalu bersemangat soal SDXL, itu karena aku tidak merasa kualitas gambarnya melonjak luar biasa. Ukurannya menjadi dua kali lipat memang bagus, tetapi tidak selalu ingin menghasilkan gambar 1024x1024, jadi itu juga jadi masalah
  Aku masih memakai model SD 1.5 hasil pelatihan pihak ketiga; output-nya benar-benar bagus, dan ada sekitar 5 metode upscaling sehingga setidaknya salah satunya menambahkan detail baru saat memperbesar
Sedikit terkait, aku belum tahu alasannya, tetapi LoRA yang kubuat untuk Stable Diffusion XL hanya bekerja dengan baik ketika memakai negative prompt yang cukup umum
Aku fine-tune dengan 6 foto wajahku, tetapi kalau hanya memakai positive prompt, karakter yang dihasilkan tidak terlalu mirip denganku. Namun ketika menambahkan negative term umum seperti “low quality”, tiba-tiba penggambaran wajahku menjadi hampir tepat
Aku sudah melatih beberapa model, dan hal itu terus terjadi pada berbagai learning rate dan jumlah epoch pelatihan
Pada akhirnya rasanya fenomena ini entah bagaimana akan terhubung dengan penyebab dari apa yang diamati minimaxir dalam tulisan ini
Aku tidak setuju dengan pernyataan bahwa rilis SDXL sebagian besar berlalu dengan tenang karena antusiasme terhadap AI gambar generatif sudah mereda
Berdasarkan orang-orang yang kuajak bicara, ada dua alasannya. Pertama, kebutuhan VRAM dan komputasi yang lebih tinggi. Kedua, kualitas hasilnya dianggap lebih rendah dibanding model SD1.5 yang terspesialisasi
Kalau salah satu dari keduanya berbeda, aku yakin popularitasnya akan jauh lebih besar
Namun pada akhirnya kebanyakan orang masih menunggu apakah model SDXL yang terspesialisasi benar-benar bisa melampaui model 1.5 yang terspesialisasi
- Alasannya adalah kualitas output yang rendah
  Bagi kebanyakan orang yang hanya mencoba sekilas, menurutku ini lebih mirip mainan untuk diutak-atik sebentar. Penggemar SD yang antusias… mungkin sedang membuat hal-hal hardcore
  XL lemah untuk pornografi. Stability takut pada apa yang mereka buat dan mencoba berjaga-jaga ke arah “keamanan”. Karena pornografi Kate Middleton atau Emma Watson tidak boleh terlalu meyakinkan
  Orang akan terus memakai 1.5 sampai ada yang lebih baik, terutama yang lebih baik untuk pornografi
Konsep ini bukan hal baru. Di civit.ai ada banyak negative embeddings yang dimasukkan ke negative prompt untuk memperbaiki tangan dan anatomi buruk
- Itu adalah eksperimen textual inversion sebelumnya yang disebutkan dalam tulisan: https://minimaxir.com/2022/11/stable-diffusion-negative-prom...
  Tulisan kali ini membahas negative LoRA yang tidak bekerja dengan cara yang sama pada level teknis
Mungkin karena pengaruh tumbuh besar di medan kontradiksi era 90-an antara “kontrakultur vs kontrakultur juga, tapi yang muncul di MTV”, ketika melihat prompt berakhir dengan referensi tag seperti “award winning photo for vanity fair”, muncul dorongan kuat untuk tidak ingin ikut dalam gelombang gambar generatif ini
Apa pun sufiks tag standar yang dipakai penulis prompt dalam tulisan-tulisan seperti ini, rasanya mirip
- “award winning photo for vanity fair” pada dasarnya lebih mirip trik untuk memunculkan komposisi foto yang bagus, misalnya rule of thirds
Pernyataan bahwa “LoRA hanya bisa diaktifkan satu per satu” sama sekali tidak benar, setidaknya di auto1111
- Seingatku, caranya adalah melakukan merge dan penyesuaian bobot secara internal

Eksperimen yang Membuat Stable Diffusion XL Lebih Pintar dengan Gambar Buatan AI yang Buruk

SDXL 1.0 dan lingkungan eksperimen

Bobot prompt dan Dreambooth LoRA di diffusers

Potensi SDXL yang terlihat melalui Ugly Sonic LoRA

Desain eksperimen LoRA wrong

Metode perbandingan dan hasil representatif

Perubahan yang terlihat pada contoh tambahan

Materi publik dan cara mereproduksi

Mengapa LoRA wrong bekerja

Ruang pengembangan yang tersisa dan eksperimen berikutnya

Bacaan terkait

1 komentar

Opini Hacker News

Desain eksperimen LoRA `wrong`

Mengapa LoRA `wrong` bekerja