1 komentar

 
GN⁺ 2024-02-23
Komentar Hacker News
  • Kemarin saya mencoba memakai ini bersama Groq untuk memperkuat game infinite fun milik Neal Agrawal dengan ekstensi Chrome, dan membuatnya menghasilkan gambar nyata, bukan hanya emoji
    Generasi gambar yang nyaris real-time dan generasi LLM terasa seperti masa depan. Saya memakai Mixtral dari Groq untuk penulisan prompt, dan Fal API untuk generasi real-time
    https://x.com/altryne/status/1760561501096575401?s=20

    • Akan keren jika ini diubah menjadi game side-scrolling, sehingga sambil berjalan, latarnya bertransisi secara bertahap dan alami ke render dari kata-kata yang sedang dibahas
      Saya membayangkan lanskap biru di awal demo perlahan berubah menjadi medan pegunungan kering dari gambar di bagian akhir, dengan karakter baru muncul di latar depan
    • Saya juga penasaran apakah ini bisa diubah menjadi game berbasis kartu
    • Terlihat sangat bagus. Saya penasaran apakah ada kemungkinan ekstensi Chrome-nya dibagikan
  • Untuk catatan, SDXL Lightning adalah open source yang dirilis di Hugging Face dengan lisensi yang relatif longgar: https://huggingface.co/ByteDance/SDXL-Lightning
    Ada juga beberapa UI lain. Contoh: https://replicate.com/lucataco/sdxl-lightning-4step

    • Benar. Di balik layar, ini menggunakan SDXL Lightning, yang dilatih ByteDance di atas Stable Diffusion XL lalu dirilis sebagai open source
      Mereka kemudian menambahkan mesin inferensi sendiri dan infrastruktur real-time untuk memberikan pengalaman yang lebih mulus dibanding UI lain. Dari sisi kecepatan, menurut saya hampir tidak bisa dibandingkan; di sini 4 langkah sekitar 370ms, sedangkan contoh replicate yang ditautkan sekitar 2~3 detik
    • Saya juga membuat demo dengan Gradio, tetapi 2x lebih lambat daripada fal.ai. Menggunakan stable-fast compile pada satu A10G
      https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
      Jika punya GPU/CUDA/Docker, Anda juga bisa mencobanya secara lokal
      docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
    • Saya penasaran berapa penggunaan memori dan kecepatannya untuk inferensi lokal
  • Kecepatannya luar biasa
    Untuk kualitas, hari ini saya meminjam prompt yang dipakai orang-orang untuk menguji Stable Diffusion 3 dan model lain: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
    Hasil yang saya dapat seperti ini: https://imgur.com/a/XrAuqCB
    Dibandingkan dengan Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...

    1. https://news.ycombinator.com/item?id=39467526
    • Kepatuhan terhadap prompt spasial memang secara umum merupakan kelemahan SDXL maupun lini Stable Diffusion sebelumnya. Saya berharap Stable Diffusion akan memperbaiki bagian ini seperti pada contoh tersebut
      Saya juga menguji contoh yang sama di Stable Cascade, model Stability dengan bobot terbuka terbaru, dan hasilnya juga tidak terlalu bagus: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
    • Hasil yang saya dapat cukup akurat: https://imgur.com/a/vH0zq5b
      Seed: 3919562
    • Kalau dijalankan sambil mengganti-ganti seed, hasilnya sangat berbeda
  • Demonya benar-benar mengesankan, tetapi akan jauh lebih menakjubkan jika lebih mulus. Saat ini, misalnya ketika menghapus kata atau menambahkan spasi, inferensi terjadi 4 kali dalam waktu singkat sehingga terasa agak tersendat
    Mungkin mereka memang sengaja menampilkan hasil per langkah. Sebagai catatan, ini adalah demo fal.ai, dan saya pertama kali mengetahuinya saat mereka mengunggah demo itu pada pagi hari ketika Stable Cascade dirilis
    Jika Anda menjalankan inferensi di luar OpenAI, saya sangat merekomendasikan fal.ai. Saya sudah hampir 3 tahun berada di industri AI, dan sejak tahun lalu nyaris menekuninya 24 jam sehari, dan Fal terlihat seperti layanan pertama yang benar-benar memperhatikan detail agar bisa secepat ini dalam penggunaan nyata, bukan hanya angka di makalah
    Contohnya hal-hal seperti koneksi WebSocket, dan JWT berumur pendek agar permintaan bisa ditandatangani dengan API key tanpa harus melewati edge function

    • Jika secepat ini, mungkin lebih baik menghasilkan gambar perantara dengan mengikuti jalur yang mulus di dalam ruang laten, alih-alih langsung melompat ke gambar target
  • Sangat suka dengan demo ini. Mudah diakses, cepat, dan intuitif. Mengejutkan bahwa kualitas sebagus ini bisa didapat semudah ini

    • Demo ini dan Groq benar-benar mengejutkan. Belum lama ini saya masih ingat menunggu lama hanya untuk mendapatkan satu gambar rusak dari situs yang memberi sekitar 20 generasi gratis setelah membuat akun
      Sekarang luar biasa bahwa kita bisa masuk ke sebuah situs web dan mendapatkan generasi teks dan gambar secepat kilat tanpa pendaftaran atau CAPTCHA. Terutama karena Groq dan fal.ai bahkan mampu membiarkan demonya sepenuhnya terbuka, saya sama sekali tidak menyangka peningkatan performa seperti ini di awal 2024
      Saya juga merasa generasi cepat banyak menutupi kekurangan kualitas gambar. Bahkan kalau gagal, hasil yang bagus sering kali cuma berjarak satu seed atau sedikit perubahan prompt
  • Penasaran bagaimana ini bisa secepat itu. Dan saya tidak tahu apa itu gambar blob:[https://blbahblah](<https://blbahblah>;)
    Tambahan lagi, kalau prompt sedikit diubah, rakun jadi mudah punya dua ekor

  • Benar-benar mengagumkan. Pengurangan latensi sangat memengaruhi cara kita berinteraksi dengan alat seperti ini
    Keunggulan kecepatan di sini bukan sekadar menghasilkan lebih banyak gambar, tetapi juga memungkinkan alur berpikir yang sama tetap berlanjut tanpa terputus saat mencoba beberapa percobaan

  • Sangat mengesankan, tapi saya penasaran apakah ada yang tahu cara menghasilkan karakter yang konsisten dengan Stable Diffusion
    Jika prompt pertama adalah seorang gadis yang berbicara dengan kucing, dan prompt kedua adalah gadis yang sama sedang bermain dengan kucing itu, saya ingin gadis dan kucingnya terlihat sama di kedua gambar
    Kalau ada, tautan atau tutorial terkait akan sangat membantu

    • Setahu saya Dashtoon Studio memungkinkan pembuatan komik dengan karakter konsisten menggunakan Stable Diffusion: https://dashtoon.com/create
    • Bisa dilakukan di Dashtoon Studio. Cukup unggah satu gambar saja, lalu mereka akan melatih LoRA karakter konsisten. Ini adalah perangkat lunak untuk membuat komik AI, dan saya menemukan video ini di YouTube: https://www.youtube.com/watch?v=EEQwEvKQGvE
      LoRA tampaknya yang paling serbaguna. Alasannya, karakter bisa didapat secara konsisten dalam pose dan sudut kamera yang diinginkan. IP-Adapter menyalin terlalu banyak karakteristik dari gambar masukan, dan sulit memilih apa yang tidak ingin disalin, seperti pose. Karena itu, akan sulit membuat karakter dari potret masukan melakukan tindakan lain
      Reactor memerlukan gambar hasil generasi untuk ditukar wajahnya. Ini bekerja baik pada gambar realistis, tetapi pada gambar bergaya, stylenya tidak terjaga dan bentuk rambutnya juga tidak tersalin
      Dari semua yang saya temukan sejauh ini, Dashtoon adalah yang paling stabil dan paling mudah. Mengumpulkan 20 gambar karakter baru saja sudah sulit, dan dalam set pelatihan LoRA, atribut gambar seperti jumlah close-up atau variasi ekspresi cukup penting
    • Layak melihat https://scenario.gg. Anda bisa melatih LoRA sendiri dengan gambar khusus karakter, dan untuk mendapatkan konsistensi yang baik biasanya diperlukan sekitar 20 gambar dari berbagai sudut
      Ada juga metode yang lebih sederhana tapi tetap lumayan, yaitu IP-Adapter, dan layanan ini juga mendukungnya. Menjaga kucing tetap konsisten sepertinya akan sulit tanpa LoRA khusus. Referensi: https://help.scenario.com/training-a-character-lora
    • Biasanya memakai nama saja sudah cukup. Pada model SD yang bagus, Maria Smith hampir selalu terlihat seperti Maria Smith
    • Mickey terlihat cukup konsisten: https://fastsdxl.ai/share/4us7hrp3jm20
  • Menarik bagaimana perilakunya saat diberi satu karakter huruf. Dalam kasus saya, hasilnya sering mengerucut ke bangunan kecil yang cukup detail
    Semakin banyak huruf yang sama diulang, misalnya 11111111 dibanding 111, bangunannya jadi makin aneh. Sekarang kelihatannya ini cukup sensitif terhadap seed

    • Kata atau konsep yang tidak dikenal pada dasarnya tidak memengaruhi output. Coba ganti baby raccoon di prompt dengan maxolhx, maka kata itu akan diabaikan dan model akan merender seorang pengantin Italia
      Secara teknis tetap ada pengaruhnya, tetapi bukan dengan cara yang mudah kita jelaskan. Ini hampir seperti bermain-main dengan seed
  • Sangat suka. Andai URL-nya bisa dibagikan
    late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
    Hasil prompt ini sangat bagus