Kemarin saya mencoba memakai ini bersama Groq untuk memperkuat game infinite fun milik Neal Agrawal dengan ekstensi Chrome, dan membuatnya menghasilkan gambar nyata, bukan hanya emoji
Generasi gambar yang nyaris real-time dan generasi LLM terasa seperti masa depan. Saya memakai Mixtral dari Groq untuk penulisan prompt, dan Fal API untuk generasi real-time https://x.com/altryne/status/1760561501096575401?s=20
Akan keren jika ini diubah menjadi game side-scrolling, sehingga sambil berjalan, latarnya bertransisi secara bertahap dan alami ke render dari kata-kata yang sedang dibahas
Saya membayangkan lanskap biru di awal demo perlahan berubah menjadi medan pegunungan kering dari gambar di bagian akhir, dengan karakter baru muncul di latar depan
Saya juga penasaran apakah ini bisa diubah menjadi game berbasis kartu
Terlihat sangat bagus. Saya penasaran apakah ada kemungkinan ekstensi Chrome-nya dibagikan
Benar. Di balik layar, ini menggunakan SDXL Lightning, yang dilatih ByteDance di atas Stable Diffusion XL lalu dirilis sebagai open source
Mereka kemudian menambahkan mesin inferensi sendiri dan infrastruktur real-time untuk memberikan pengalaman yang lebih mulus dibanding UI lain. Dari sisi kecepatan, menurut saya hampir tidak bisa dibandingkan; di sini 4 langkah sekitar 370ms, sedangkan contoh replicate yang ditautkan sekitar 2~3 detik
Saya juga membuat demo dengan Gradio, tetapi 2x lebih lambat daripada fal.ai. Menggunakan stable-fast compile pada satu A10G https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
Jika punya GPU/CUDA/Docker, Anda juga bisa mencobanya secara lokal docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
Saya penasaran berapa penggunaan memori dan kecepatannya untuk inferensi lokal
Kecepatannya luar biasa
Untuk kualitas, hari ini saya meminjam prompt yang dipakai orang-orang untuk menguji Stable Diffusion 3 dan model lain: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
Hasil yang saya dapat seperti ini: https://imgur.com/a/XrAuqCB
Dibandingkan dengan Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
Kepatuhan terhadap prompt spasial memang secara umum merupakan kelemahan SDXL maupun lini Stable Diffusion sebelumnya. Saya berharap Stable Diffusion akan memperbaiki bagian ini seperti pada contoh tersebut
Saya juga menguji contoh yang sama di Stable Cascade, model Stability dengan bobot terbuka terbaru, dan hasilnya juga tidak terlalu bagus: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
Kalau dijalankan sambil mengganti-ganti seed, hasilnya sangat berbeda
Demonya benar-benar mengesankan, tetapi akan jauh lebih menakjubkan jika lebih mulus. Saat ini, misalnya ketika menghapus kata atau menambahkan spasi, inferensi terjadi 4 kali dalam waktu singkat sehingga terasa agak tersendat
Mungkin mereka memang sengaja menampilkan hasil per langkah. Sebagai catatan, ini adalah demo fal.ai, dan saya pertama kali mengetahuinya saat mereka mengunggah demo itu pada pagi hari ketika Stable Cascade dirilis
Jika Anda menjalankan inferensi di luar OpenAI, saya sangat merekomendasikan fal.ai. Saya sudah hampir 3 tahun berada di industri AI, dan sejak tahun lalu nyaris menekuninya 24 jam sehari, dan Fal terlihat seperti layanan pertama yang benar-benar memperhatikan detail agar bisa secepat ini dalam penggunaan nyata, bukan hanya angka di makalah
Contohnya hal-hal seperti koneksi WebSocket, dan JWT berumur pendek agar permintaan bisa ditandatangani dengan API key tanpa harus melewati edge function
Jika secepat ini, mungkin lebih baik menghasilkan gambar perantara dengan mengikuti jalur yang mulus di dalam ruang laten, alih-alih langsung melompat ke gambar target
Sangat suka dengan demo ini. Mudah diakses, cepat, dan intuitif. Mengejutkan bahwa kualitas sebagus ini bisa didapat semudah ini
Demo ini dan Groq benar-benar mengejutkan. Belum lama ini saya masih ingat menunggu lama hanya untuk mendapatkan satu gambar rusak dari situs yang memberi sekitar 20 generasi gratis setelah membuat akun
Sekarang luar biasa bahwa kita bisa masuk ke sebuah situs web dan mendapatkan generasi teks dan gambar secepat kilat tanpa pendaftaran atau CAPTCHA. Terutama karena Groq dan fal.ai bahkan mampu membiarkan demonya sepenuhnya terbuka, saya sama sekali tidak menyangka peningkatan performa seperti ini di awal 2024
Saya juga merasa generasi cepat banyak menutupi kekurangan kualitas gambar. Bahkan kalau gagal, hasil yang bagus sering kali cuma berjarak satu seed atau sedikit perubahan prompt
Penasaran bagaimana ini bisa secepat itu. Dan saya tidak tahu apa itu gambar blob:[https://blbahblah](<https://blbahblah>)
Tambahan lagi, kalau prompt sedikit diubah, rakun jadi mudah punya dua ekor
Benar-benar mengagumkan. Pengurangan latensi sangat memengaruhi cara kita berinteraksi dengan alat seperti ini
Keunggulan kecepatan di sini bukan sekadar menghasilkan lebih banyak gambar, tetapi juga memungkinkan alur berpikir yang sama tetap berlanjut tanpa terputus saat mencoba beberapa percobaan
Sangat mengesankan, tapi saya penasaran apakah ada yang tahu cara menghasilkan karakter yang konsisten dengan Stable Diffusion
Jika prompt pertama adalah seorang gadis yang berbicara dengan kucing, dan prompt kedua adalah gadis yang sama sedang bermain dengan kucing itu, saya ingin gadis dan kucingnya terlihat sama di kedua gambar
Kalau ada, tautan atau tutorial terkait akan sangat membantu
Setahu saya Dashtoon Studio memungkinkan pembuatan komik dengan karakter konsisten menggunakan Stable Diffusion: https://dashtoon.com/create
Bisa dilakukan di Dashtoon Studio. Cukup unggah satu gambar saja, lalu mereka akan melatih LoRA karakter konsisten. Ini adalah perangkat lunak untuk membuat komik AI, dan saya menemukan video ini di YouTube: https://www.youtube.com/watch?v=EEQwEvKQGvE
LoRA tampaknya yang paling serbaguna. Alasannya, karakter bisa didapat secara konsisten dalam pose dan sudut kamera yang diinginkan. IP-Adapter menyalin terlalu banyak karakteristik dari gambar masukan, dan sulit memilih apa yang tidak ingin disalin, seperti pose. Karena itu, akan sulit membuat karakter dari potret masukan melakukan tindakan lain
Reactor memerlukan gambar hasil generasi untuk ditukar wajahnya. Ini bekerja baik pada gambar realistis, tetapi pada gambar bergaya, stylenya tidak terjaga dan bentuk rambutnya juga tidak tersalin
Dari semua yang saya temukan sejauh ini, Dashtoon adalah yang paling stabil dan paling mudah. Mengumpulkan 20 gambar karakter baru saja sudah sulit, dan dalam set pelatihan LoRA, atribut gambar seperti jumlah close-up atau variasi ekspresi cukup penting
Layak melihat https://scenario.gg. Anda bisa melatih LoRA sendiri dengan gambar khusus karakter, dan untuk mendapatkan konsistensi yang baik biasanya diperlukan sekitar 20 gambar dari berbagai sudut
Ada juga metode yang lebih sederhana tapi tetap lumayan, yaitu IP-Adapter, dan layanan ini juga mendukungnya. Menjaga kucing tetap konsisten sepertinya akan sulit tanpa LoRA khusus. Referensi: https://help.scenario.com/training-a-character-lora
Biasanya memakai nama saja sudah cukup. Pada model SD yang bagus, Maria Smith hampir selalu terlihat seperti Maria Smith
Menarik bagaimana perilakunya saat diberi satu karakter huruf. Dalam kasus saya, hasilnya sering mengerucut ke bangunan kecil yang cukup detail
Semakin banyak huruf yang sama diulang, misalnya 11111111 dibanding 111, bangunannya jadi makin aneh. Sekarang kelihatannya ini cukup sensitif terhadap seed
Kata atau konsep yang tidak dikenal pada dasarnya tidak memengaruhi output. Coba ganti baby raccoon di prompt dengan maxolhx, maka kata itu akan diabaikan dan model akan merender seorang pengantin Italia
Secara teknis tetap ada pengaruhnya, tetapi bukan dengan cara yang mudah kita jelaskan. Ini hampir seperti bermain-main dengan seed
Sangat suka. Andai URL-nya bisa dibagikan late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
Hasil prompt ini sangat bagus
1 komentar
Komentar Hacker News
Kemarin saya mencoba memakai ini bersama Groq untuk memperkuat game infinite fun milik Neal Agrawal dengan ekstensi Chrome, dan membuatnya menghasilkan gambar nyata, bukan hanya emoji
Generasi gambar yang nyaris real-time dan generasi LLM terasa seperti masa depan. Saya memakai Mixtral dari Groq untuk penulisan prompt, dan Fal API untuk generasi real-time
https://x.com/altryne/status/1760561501096575401?s=20
Saya membayangkan lanskap biru di awal demo perlahan berubah menjadi medan pegunungan kering dari gambar di bagian akhir, dengan karakter baru muncul di latar depan
Untuk catatan, SDXL Lightning adalah open source yang dirilis di Hugging Face dengan lisensi yang relatif longgar: https://huggingface.co/ByteDance/SDXL-Lightning
Ada juga beberapa UI lain. Contoh: https://replicate.com/lucataco/sdxl-lightning-4step
Mereka kemudian menambahkan mesin inferensi sendiri dan infrastruktur real-time untuk memberikan pengalaman yang lebih mulus dibanding UI lain. Dari sisi kecepatan, menurut saya hampir tidak bisa dibandingkan; di sini 4 langkah sekitar 370ms, sedangkan contoh replicate yang ditautkan sekitar 2~3 detik
https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
Jika punya GPU/CUDA/Docker, Anda juga bisa mencobanya secara lokal
docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.pyKecepatannya luar biasa
Untuk kualitas, hari ini saya meminjam prompt yang dipakai orang-orang untuk menguji Stable Diffusion 3 dan model lain: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
Hasil yang saya dapat seperti ini: https://imgur.com/a/XrAuqCB
Dibandingkan dengan Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
Saya juga menguji contoh yang sama di Stable Cascade, model Stability dengan bobot terbuka terbaru, dan hasilnya juga tidak terlalu bagus: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
Seed: 3919562
Demonya benar-benar mengesankan, tetapi akan jauh lebih menakjubkan jika lebih mulus. Saat ini, misalnya ketika menghapus kata atau menambahkan spasi, inferensi terjadi 4 kali dalam waktu singkat sehingga terasa agak tersendat
Mungkin mereka memang sengaja menampilkan hasil per langkah. Sebagai catatan, ini adalah demo fal.ai, dan saya pertama kali mengetahuinya saat mereka mengunggah demo itu pada pagi hari ketika Stable Cascade dirilis
Jika Anda menjalankan inferensi di luar OpenAI, saya sangat merekomendasikan fal.ai. Saya sudah hampir 3 tahun berada di industri AI, dan sejak tahun lalu nyaris menekuninya 24 jam sehari, dan Fal terlihat seperti layanan pertama yang benar-benar memperhatikan detail agar bisa secepat ini dalam penggunaan nyata, bukan hanya angka di makalah
Contohnya hal-hal seperti koneksi WebSocket, dan JWT berumur pendek agar permintaan bisa ditandatangani dengan API key tanpa harus melewati edge function
Sangat suka dengan demo ini. Mudah diakses, cepat, dan intuitif. Mengejutkan bahwa kualitas sebagus ini bisa didapat semudah ini
Sekarang luar biasa bahwa kita bisa masuk ke sebuah situs web dan mendapatkan generasi teks dan gambar secepat kilat tanpa pendaftaran atau CAPTCHA. Terutama karena Groq dan fal.ai bahkan mampu membiarkan demonya sepenuhnya terbuka, saya sama sekali tidak menyangka peningkatan performa seperti ini di awal 2024
Saya juga merasa generasi cepat banyak menutupi kekurangan kualitas gambar. Bahkan kalau gagal, hasil yang bagus sering kali cuma berjarak satu seed atau sedikit perubahan prompt
Penasaran bagaimana ini bisa secepat itu. Dan saya tidak tahu apa itu gambar
blob:[https://blbahblah](<https://blbahblah>)Tambahan lagi, kalau prompt sedikit diubah, rakun jadi mudah punya dua ekor
https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
Ini adalah cara mengubah file atau Blob menjadi URL yang bisa dipakai di elemen seperti gambar
Benar-benar mengagumkan. Pengurangan latensi sangat memengaruhi cara kita berinteraksi dengan alat seperti ini
Keunggulan kecepatan di sini bukan sekadar menghasilkan lebih banyak gambar, tetapi juga memungkinkan alur berpikir yang sama tetap berlanjut tanpa terputus saat mencoba beberapa percobaan
Sangat mengesankan, tapi saya penasaran apakah ada yang tahu cara menghasilkan karakter yang konsisten dengan Stable Diffusion
Jika prompt pertama adalah seorang gadis yang berbicara dengan kucing, dan prompt kedua adalah gadis yang sama sedang bermain dengan kucing itu, saya ingin gadis dan kucingnya terlihat sama di kedua gambar
Kalau ada, tautan atau tutorial terkait akan sangat membantu
LoRA tampaknya yang paling serbaguna. Alasannya, karakter bisa didapat secara konsisten dalam pose dan sudut kamera yang diinginkan. IP-Adapter menyalin terlalu banyak karakteristik dari gambar masukan, dan sulit memilih apa yang tidak ingin disalin, seperti pose. Karena itu, akan sulit membuat karakter dari potret masukan melakukan tindakan lain
Reactor memerlukan gambar hasil generasi untuk ditukar wajahnya. Ini bekerja baik pada gambar realistis, tetapi pada gambar bergaya, stylenya tidak terjaga dan bentuk rambutnya juga tidak tersalin
Dari semua yang saya temukan sejauh ini, Dashtoon adalah yang paling stabil dan paling mudah. Mengumpulkan 20 gambar karakter baru saja sudah sulit, dan dalam set pelatihan LoRA, atribut gambar seperti jumlah close-up atau variasi ekspresi cukup penting
Ada juga metode yang lebih sederhana tapi tetap lumayan, yaitu IP-Adapter, dan layanan ini juga mendukungnya. Menjaga kucing tetap konsisten sepertinya akan sulit tanpa LoRA khusus. Referensi: https://help.scenario.com/training-a-character-lora
Menarik bagaimana perilakunya saat diberi satu karakter huruf. Dalam kasus saya, hasilnya sering mengerucut ke bangunan kecil yang cukup detail
Semakin banyak huruf yang sama diulang, misalnya
11111111dibanding111, bangunannya jadi makin aneh. Sekarang kelihatannya ini cukup sensitif terhadap seedbaby raccoondi prompt denganmaxolhx, maka kata itu akan diabaikan dan model akan merender seorang pengantin ItaliaSecara teknis tetap ada pengaruhnya, tetapi bukan dengan cara yang mudah kita jelaskan. Ini hampir seperti bermain-main dengan seed
Sangat suka. Andai URL-nya bisa dibagikan
late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1Hasil prompt ini sangat bagus
Pahlawan terlihat seperti ini: https://fastsdxl.ai/share/x9jxax4pnljd
Teroris terlihat seperti ini: https://fastsdxl.ai/share/ejtyvv9ahpfs
Orang yang ingin saya jadi terlihat seperti ini: https://fastsdxl.ai/share/8ekkecm5rqsr
Berkat kecepatannya, sangat menarik karena kita bisa cepat mengevaluasi bias yang melekat hanya dengan mengganti seed