1 poin oleh GN⁺ 2024-01-26 | 1 komentar | Bagikan ke WhatsApp

Teks-ke-video

  • Tim riset Google memperkenalkan model difusi teks-ke-video bernama Lumiere.
  • Model ini berfokus pada sintesis video yang menampilkan gerakan yang realistis, beragam, dan konsisten.
  • Dengan menggunakan arsitektur space-time U-Net, model ini menghasilkan seluruh durasi video sekaligus.

Gambar-ke-video

  • Dengan Lumiere, video dengan gaya yang dituju dapat dibuat menggunakan satu gambar referensi.
  • Model ini memanfaatkan bobot model teks-ke-gambar yang telah di-fine-tune.

Stylisasi video

  • Melalui Lumiere, metode pengeditan gambar berbasis teks yang sudah ada dapat digunakan untuk pengeditan video yang konsisten.

Cinemagraph

  • Model Lumiere dapat menganimasikan konten gambar dalam area tertentu yang diberikan oleh pengguna.

Inpainting video

  • Model Lumiere dapat memulihkan konten video yang dimask untuk menghasilkan video yang lengkap.

Penulis dan ucapan terima kasih

  • Tim riset terdiri dari para penulis bersama dari Google Research dan beberapa universitas.
  • Mereka menyampaikan terima kasih kepada para penulis yang berkontribusi melalui program magang, serta kepada berbagai pihak yang memberikan kolaborasi dan dukungan.

Pendapat GN⁺:

  • Model Lumiere menandai kemajuan penting di bidang sintesis video. Kemampuan menghasilkan video dengan gerakan yang realistis dan beragam akan sangat membantu kreator konten dan editor video.
  • Teknologi ini khususnya dapat berkontribusi dalam memperkuat penceritaan visual di industri film maupun periklanan, serta memperluas ekspresi kreatif.
  • Pengembangan Lumiere menunjukkan bagaimana alat kreasi berbasis kecerdasan buatan sedang mengubah pekerjaan kreatif.

1 komentar

 
GN⁺ 2024-01-26
Komentar Hacker News
    • Saya merasa sangat tidak nyaman dengan karya ini yang disajikan atas nama riset ilmiah. Ini hanya bisa dijelaskan sebagai pamer, iklan, dan pemasaran. Tidak ada proses yang dapat direproduksi yang dijelaskan, dan diagram arsitekturnya mungkin memberi inspirasi tetapi tidak mengizinkan falsifikasi, aspek terpenting dari upaya ilmiah. Karena tidak ada cara untuk memverifikasi apakah Google berbohong, kita harus berasumsi bahwa semua contoh telah dipilih-pilih dan diproses pasca-produksi. Kita juga harus berasumsi bahwa data yang digunakan untuk melatih model diperoleh secara ilegal. Karena Google kini secara rutin membuat klaim yang tidak bisa dibuktikan, kita harus memulai dari skeptisisme yang ekstrem. Sebagai contoh, performa Gemini di Bard jauh di bawah GPT-4. Ketika mereka merilis video yang mengklaim interaksi dengan model, ternyata sebenarnya tidak demikian.
    • Contoh-contohnya terlihat jauh lebih konsisten dan lebih panjang dibanding teknologi yang pernah saya lihat sebelumnya. Dibandingkan model lain, kaki yang meluncur di lantai jauh lebih sedikit. Di sisi lain, wajah manusia tidak terlihat bagus. Misalnya, Mona Lisa yang tersenyum. Ini tampak seperti model generasi video bagus yang pertama. Edit: saya baru sadar ini dibuat oleh Google, jadi sepertinya tidak akan pernah dirilis.
    • Di GitHub mereka saat ini tidak ada apa pun selain halaman yang terhubung itu. Mereka juga tidak pernah mengklaim akan merilisnya. Tetap saja saya harus memeriksa, dan saya tidak melihat tautan ke profil GitHub mereka. Saya bagikan tautannya di sini bagi yang tidak ingin mengetik URL situs yang di-hosting secara manual.
    • Video inpainting itu menarik. Belakangan ini anak-anak menonton episode SpongeBob lama, dan rasio aspek 4:3 cukup mencolok. Melakukan inpainting pada tepi samping untuk mengembalikannya ke rasio 16:9 tampaknya bisa menjadi kasus penggunaan yang menarik. Tapi sepertinya itu akan membutuhkan semacam kemampuan untuk memprediksi objek yang masuk dari samping.
    • Karena sifat aneh dan seperti mimpi dari sampel kecil video AI ini, saya selalu kecewa bahwa makalah seperti ini tidak menyertakan prompt "memimpikan domba elektrik" sebagai easter egg.
    • Jika pengumuman ini dimundurkan hanya 2-3 tahun, ini akan terasa sangat mengejutkan. Kita semua sudah terbiasa dengan produk baru seperti ini yang muncul sangat cepat dan sering, tetapi menurut saya ini tetap menakjubkan. Saya tidak sabar menunggu hari ketika kita memiliki perangkat lunak dengan kemampuan seperti ini. Edit: karena ini dibuat oleh Google, saya akan menunggu sampai ada versi open source yang dirilis.
    • Mereka tampaknya sering mencampurkan gambar-gambar lama dengan dataset modern. Jika Anda mengambil potret George Washington lalu meminta "pria yang tersenyum", apakah giginya akan terlihat seperti gigi palsu, atau gigi putih?
    • Beberapa komentar: karena ini Google, kita tidak akan bisa menggunakannya sendiri. Meski begitu, idenya sangat menarik -- melatih model untuk menghasilkan representasi temporal global kecil dari sebuah video, lalu melakukan upscale baik terhadap waktu maupun piksel. Saya pernah melihat model yang menambahkan depth map, tetapi model ini menambahkan "time map" sebagai dimensi lain. Konsistensinya terlihat cukup bagus. Yang lebih terasa canggung adalah ketika model harus memutuskan apa yang harus "dilakukan" seiring waktu. Wawasan besar dari para Googler adalah bahwa konsistensi bisa dikondisikan, dilatih, dan dihasilkan sebagai sesuatu yang berdiri sendiri. Ini tampaknya bisa direplikasi oleh penyedia model lain seperti Stability; tidak ada yang terlihat mustahil untuk diimplementasikan.
    • Postingan bertema pixel untuk makalah bertema pixel. Cukup mengesankan, dan mungkin akan segera memicu gelombang besar program "buat film dari satu paragraf". Karena ini Google, kemungkinan besar akan dimasukkan ke dalam kotak dan menjadi perangkat ala Rick and Morty yang tidak akan pernah kita lihat. Format daftar penulisnya keren. Notasi 1,2,3,4,*,+ untuk penulis utama, afiliasi institusi, dan kontributor inti itu bagus. Saya sudah membaca banyak makalah astronomi dan fisika dengan lebih dari 10 penulis, tetapi tidak tahu sama sekali siapa mengerjakan apa. Misalnya, tautan arXiv tidak menunjukkan format serupa. Mungkin ini akan segera disalahgunakan untuk pornografi yang abusif. Contoh wanita berjalan: (variasi ke-5) "tanpa mengenakan pakaian"
    • Tahun ini kita akan melihat film panjang pertama yang dihasilkan AI. Jika Anda mengira saya gila, pertimbangkan bahwa bahkan di awal sejarah film, rata-rata panjang shot adalah 12 detik dan sekarang hanya 2,5 detik. Beberapa teknik penting seperti mempertahankan tema yang konsisten antar generasi memang masih perlu disempurnakan, tetapi banyak inkonsistensi bisa ditutup dengan menerapkan metode yang sudah ada, seperti memisahkan layer berdasarkan kedalaman untuk menggunakan gambar yang lebih statis, atau membuat model 3D sederhana bertekstur di area yang membutuhkan lebih banyak kedalaman. Seseorang dengan usaha dan keterampilan yang cukup mungkin sudah bisa melakukannya dengan teknologi yang ada.