Pengenalan HN: Pembuatan gambar real-time menggunakan SDXL Lightning

(fastsdxl.ai)

1 poin oleh GN⁺ 2024-02-23 | 1 komentar | Bagikan ke WhatsApp

1 komentar

GN⁺ 2024-02-23

Komentar Hacker News

Kemarin saya mencoba memakai ini bersama Groq untuk memperkuat game infinite fun milik Neal Agrawal dengan ekstensi Chrome, dan membuatnya menghasilkan gambar nyata, bukan hanya emoji
Generasi gambar yang nyaris real-time dan generasi LLM terasa seperti masa depan. Saya memakai Mixtral dari Groq untuk penulisan prompt, dan Fal API untuk generasi real-time
https://x.com/altryne/status/1760561501096575401?s=20
- Akan keren jika ini diubah menjadi game side-scrolling, sehingga sambil berjalan, latarnya bertransisi secara bertahap dan alami ke render dari kata-kata yang sedang dibahas
  Saya membayangkan lanskap biru di awal demo perlahan berubah menjadi medan pegunungan kering dari gambar di bagian akhir, dengan karakter baru muncul di latar depan
- Saya juga penasaran apakah ini bisa diubah menjadi game berbasis kartu
- Terlihat sangat bagus. Saya penasaran apakah ada kemungkinan ekstensi Chrome-nya dibagikan
Untuk catatan, SDXL Lightning adalah open source yang dirilis di Hugging Face dengan lisensi yang relatif longgar: https://huggingface.co/ByteDance/SDXL-Lightning
Ada juga beberapa UI lain. Contoh: https://replicate.com/lucataco/sdxl-lightning-4step
- Benar. Di balik layar, ini menggunakan SDXL Lightning, yang dilatih ByteDance di atas Stable Diffusion XL lalu dirilis sebagai open source
  Mereka kemudian menambahkan mesin inferensi sendiri dan infrastruktur real-time untuk memberikan pengalaman yang lebih mulus dibanding UI lain. Dari sisi kecepatan, menurut saya hampir tidak bisa dibandingkan; di sini 4 langkah sekitar 370ms, sedangkan contoh replicate yang ditautkan sekitar 2~3 detik
- Saya juga membuat demo dengan Gradio, tetapi 2x lebih lambat daripada fal.ai. Menggunakan stable-fast compile pada satu A10G
  https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
  Jika punya GPU/CUDA/Docker, Anda juga bisa mencobanya secara lokal
  docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
- Saya penasaran berapa penggunaan memori dan kecepatannya untuk inferensi lokal
Kecepatannya luar biasa
Untuk kualitas, hari ini saya meminjam prompt yang dipakai orang-orang untuk menguji Stable Diffusion 3 dan model lain: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
Hasil yang saya dapat seperti ini: https://imgur.com/a/XrAuqCB
Dibandingkan dengan Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
1. https://news.ycombinator.com/item?id=39467526
- Kepatuhan terhadap prompt spasial memang secara umum merupakan kelemahan SDXL maupun lini Stable Diffusion sebelumnya. Saya berharap Stable Diffusion akan memperbaiki bagian ini seperti pada contoh tersebut
  Saya juga menguji contoh yang sama di Stable Cascade, model Stability dengan bobot terbuka terbaru, dan hasilnya juga tidak terlalu bagus: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
- Hasil yang saya dapat cukup akurat: https://imgur.com/a/vH0zq5b
  Seed: 3919562
- Kalau dijalankan sambil mengganti-ganti seed, hasilnya sangat berbeda
Demonya benar-benar mengesankan, tetapi akan jauh lebih menakjubkan jika lebih mulus. Saat ini, misalnya ketika menghapus kata atau menambahkan spasi, inferensi terjadi 4 kali dalam waktu singkat sehingga terasa agak tersendat
Mungkin mereka memang sengaja menampilkan hasil per langkah. Sebagai catatan, ini adalah demo fal.ai, dan saya pertama kali mengetahuinya saat mereka mengunggah demo itu pada pagi hari ketika Stable Cascade dirilis
Jika Anda menjalankan inferensi di luar OpenAI, saya sangat merekomendasikan fal.ai. Saya sudah hampir 3 tahun berada di industri AI, dan sejak tahun lalu nyaris menekuninya 24 jam sehari, dan Fal terlihat seperti layanan pertama yang benar-benar memperhatikan detail agar bisa secepat ini dalam penggunaan nyata, bukan hanya angka di makalah
Contohnya hal-hal seperti koneksi WebSocket, dan JWT berumur pendek agar permintaan bisa ditandatangani dengan API key tanpa harus melewati edge function
- Jika secepat ini, mungkin lebih baik menghasilkan gambar perantara dengan mengikuti jalur yang mulus di dalam ruang laten, alih-alih langsung melompat ke gambar target
Sangat suka dengan demo ini. Mudah diakses, cepat, dan intuitif. Mengejutkan bahwa kualitas sebagus ini bisa didapat semudah ini
- Demo ini dan Groq benar-benar mengejutkan. Belum lama ini saya masih ingat menunggu lama hanya untuk mendapatkan satu gambar rusak dari situs yang memberi sekitar 20 generasi gratis setelah membuat akun
  Sekarang luar biasa bahwa kita bisa masuk ke sebuah situs web dan mendapatkan generasi teks dan gambar secepat kilat tanpa pendaftaran atau CAPTCHA. Terutama karena Groq dan fal.ai bahkan mampu membiarkan demonya sepenuhnya terbuka, saya sama sekali tidak menyangka peningkatan performa seperti ini di awal 2024
  Saya juga merasa generasi cepat banyak menutupi kekurangan kualitas gambar. Bahkan kalau gagal, hasil yang bagus sering kali cuma berjarak satu seed atau sedikit perubahan prompt
Penasaran bagaimana ini bisa secepat itu. Dan saya tidak tahu apa itu gambar blob:[https://blbahblah](<https://blbahblah>;)
Tambahan lagi, kalau prompt sedikit diubah, rakun jadi mudah punya dua ekor
- Untuk menjawab pertanyaan kedua, itu adalah object URL
  https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
  Ini adalah cara mengubah file atau Blob menjadi URL yang bisa dipakai di elemen seperti gambar
- Itu adalah URL sementara yang merepresentasikan buffer JavaScript: https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
Benar-benar mengagumkan. Pengurangan latensi sangat memengaruhi cara kita berinteraksi dengan alat seperti ini
Keunggulan kecepatan di sini bukan sekadar menghasilkan lebih banyak gambar, tetapi juga memungkinkan alur berpikir yang sama tetap berlanjut tanpa terputus saat mencoba beberapa percobaan
Sangat mengesankan, tapi saya penasaran apakah ada yang tahu cara menghasilkan karakter yang konsisten dengan Stable Diffusion
Jika prompt pertama adalah seorang gadis yang berbicara dengan kucing, dan prompt kedua adalah gadis yang sama sedang bermain dengan kucing itu, saya ingin gadis dan kucingnya terlihat sama di kedua gambar
Kalau ada, tautan atau tutorial terkait akan sangat membantu
- Setahu saya Dashtoon Studio memungkinkan pembuatan komik dengan karakter konsisten menggunakan Stable Diffusion: https://dashtoon.com/create
- Bisa dilakukan di Dashtoon Studio. Cukup unggah satu gambar saja, lalu mereka akan melatih LoRA karakter konsisten. Ini adalah perangkat lunak untuk membuat komik AI, dan saya menemukan video ini di YouTube: https://www.youtube.com/watch?v=EEQwEvKQGvE
  LoRA tampaknya yang paling serbaguna. Alasannya, karakter bisa didapat secara konsisten dalam pose dan sudut kamera yang diinginkan. IP-Adapter menyalin terlalu banyak karakteristik dari gambar masukan, dan sulit memilih apa yang tidak ingin disalin, seperti pose. Karena itu, akan sulit membuat karakter dari potret masukan melakukan tindakan lain
  Reactor memerlukan gambar hasil generasi untuk ditukar wajahnya. Ini bekerja baik pada gambar realistis, tetapi pada gambar bergaya, stylenya tidak terjaga dan bentuk rambutnya juga tidak tersalin
  Dari semua yang saya temukan sejauh ini, Dashtoon adalah yang paling stabil dan paling mudah. Mengumpulkan 20 gambar karakter baru saja sudah sulit, dan dalam set pelatihan LoRA, atribut gambar seperti jumlah close-up atau variasi ekspresi cukup penting
- Layak melihat https://scenario.gg. Anda bisa melatih LoRA sendiri dengan gambar khusus karakter, dan untuk mendapatkan konsistensi yang baik biasanya diperlukan sekitar 20 gambar dari berbagai sudut
  Ada juga metode yang lebih sederhana tapi tetap lumayan, yaitu IP-Adapter, dan layanan ini juga mendukungnya. Menjaga kucing tetap konsisten sepertinya akan sulit tanpa LoRA khusus. Referensi: https://help.scenario.com/training-a-character-lora
- Biasanya memakai nama saja sudah cukup. Pada model SD yang bagus, Maria Smith hampir selalu terlihat seperti Maria Smith
- Mickey terlihat cukup konsisten: https://fastsdxl.ai/share/4us7hrp3jm20
Menarik bagaimana perilakunya saat diberi satu karakter huruf. Dalam kasus saya, hasilnya sering mengerucut ke bangunan kecil yang cukup detail
Semakin banyak huruf yang sama diulang, misalnya 11111111 dibanding 111, bangunannya jadi makin aneh. Sekarang kelihatannya ini cukup sensitif terhadap seed
- Kata atau konsep yang tidak dikenal pada dasarnya tidak memengaruhi output. Coba ganti baby raccoon di prompt dengan maxolhx, maka kata itu akan diabaikan dan model akan merender seorang pengantin Italia
  Secara teknis tetap ada pengaruhnya, tetapi bukan dengan cara yang mudah kita jelaskan. Ini hampir seperti bermain-main dengan seed
Sangat suka. Andai URL-nya bisa dibagikan
late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
Hasil prompt ini sangat bagus
- Orang biasa terlihat seperti ini: https://fastsdxl.ai/share/1mb3d5lo5ic9
  Pahlawan terlihat seperti ini: https://fastsdxl.ai/share/x9jxax4pnljd
  Teroris terlihat seperti ini: https://fastsdxl.ai/share/ejtyvv9ahpfs
  Orang yang ingin saya jadi terlihat seperti ini: https://fastsdxl.ai/share/8ekkecm5rqsr
  Berkat kecepatannya, sangat menarik karena kita bisa cepat mengevaluasi bias yang melekat hanya dengan mengganti seed
- Baru saja saya menambahkan fitur berbagi. Akan bagus kalau Anda memberi tahu apa yang Anda buat
- Sepertinya berbagi akan memungkinkan jika seed-nya disediakan

Pengenalan HN: Pembuatan gambar real-time menggunakan SDXL Lightning

Bacaan terkait

1 komentar

Komentar Hacker News