Lumiere: Model Difusi Ruang-Waktu untuk Pembuatan Video yang Realistis

(lumiere-video.github.io)

1 poin oleh GN⁺ 2024-01-26 | 1 komentar | Bagikan ke WhatsApp

Untuk meningkatkan konsistensi gerakan, salah satu tantangan dalam pembuatan video, Lumiere dari Google Research adalah model difusi text-to-video yang bertujuan menghasilkan sintesis video yang realistis dan beragam
Intinya adalah Space-Time U-Net, yang menghasilkan seluruh rentang waktu dalam satu kali lintasan model alih-alih membuat keyframe yang berjauhan terlebih dahulu lalu melakukan interpolasi
Model ini menggunakan downsampling dan upsampling baik pada arah spasial maupun temporal, serta memanfaatkan model difusi text-to-image yang telah dilatih sebelumnya untuk langsung membuat video beresolusi rendah dengan full frame rate
Demo mencakup beragam tugas pembuatan dan penyuntingan, mulai dari text-to-video, image-to-video, pembuatan bergaya, stylization video, cinemagraph, hingga inpainting video
Pemula dapat membuat konten visual secara fleksibel, tetapi karena ada potensi penyalahgunaan untuk konten palsu atau berbahaya, deteksi bias dan penggunaan berbahaya juga diperlukan

Tujuan Lumiere dan materi publik

Lumiere adalah model difusi text-to-video yang berfokus pada peningkatan realisme, keberagaman, dan konsistensi temporal gerakan dalam sintesis video
Di halaman proyek, Anda dapat melihat makalah dan berbagai video demo
Selain tugas pembuatan, proyek ini juga menampilkan aplikasi penyuntingan video

Struktur yang menghasilkan seluruh rentang waktu sekaligus

Lumiere memperkenalkan arsitektur Space-Time U-Net untuk menghasilkan seluruh durasi video dalam satu kali lintasan model
Model video yang ada biasanya menyintesis keyframe yang berjauhan terlebih dahulu lalu menerapkan super-resolusi temporal, sehingga sulit menyelaraskan konsistensi temporal global
Model ini menerapkan downsampling dan upsampling tidak hanya pada ruang, tetapi juga pada arah waktu
Dengan memanfaatkan model difusi text-to-image yang telah dilatih sebelumnya, model ini langsung menghasilkan video beresolusi rendah dengan full frame rate pada berbagai skala ruang-waktu

Pembuatan video dari teks dan gambar

Demo Text-to-Video menghasilkan video hanya dari prompt teks
- Contohnya mencakup pendaki di puncak gunung, astronaut di sekitar pangkalan Mars, adegan seekor anjing berkacamata hitam sedang mengemudi, sirup cokelat yang dituangkan ke atas es krim vanila, kembang api, timelapse matahari terbenam di pantai, dan lainnya
Demo Image-to-Video membuat video berdasarkan gambar masukan dan prompt
- Contohnya mencakup kucing sedih memakai kemeja bergaris, boneka beruang yang menari di salju, kura-kura yang berenang di laut, monyet yang menggunakan laptop sambil minum kopi, kucing yang bermain piano, dan lainnya

Pembuatan bergaya dan penyuntingan video

Stylized Generation menggunakan satu gambar referensi untuk menghasilkan video dengan gaya target
Dalam proses ini digunakan bobot model text-to-image yang telah di-fine-tune
Contoh referensi gaya mencakup Sticker, 3D Melting Gold, Flat cartoon, 3D Rendering, Line drawing, Glowing, Watercolor painting, dan lainnya
Dalam Video Stylization, penyuntingan video yang konsisten dapat dilakukan dengan metode penyuntingan gambar berbasis teks
- Contoh prompt gaya mencakup “Made of wooden blocks”, “Origami folded paper art”, “Made of colorful toy bricks”, “Made of flowers”, dan lainnya

Animasi berbasis area dan inpainting

Fitur Cinemagraphs dapat menganimasikan hanya area tertentu dari konten gambar yang ditentukan pengguna
Demo Video Inpainting menerima video asli yang diberi mask sebagai input dan menghasilkan video keluaran
Contoh inpainting mencakup prompt untuk mengubah pakaian atau aksesori
- “wearing a gold strapless gown”
- “wearing sunglasses”
- “wearing a red scarf”
- “wearing rain boots”

Dampak sosial dan keselamatan

Tujuan utama Lumiere adalah memungkinkan pengguna pemula menghasilkan konten visual secara kreatif dan fleksibel
Teknologi yang sama juga berisiko disalahgunakan untuk membuat konten palsu atau berbahaya
Untuk penggunaan yang aman dan adil, alat untuk mendeteksi bias dan kasus penggunaan berbahaya perlu dikembangkan dan diterapkan

1 komentar

GN⁺ 2024-01-26

Komentar Hacker News

Saya sangat tidak nyaman melihat karya ini dipublikasikan dengan kedok riset ilmiah
Ini sulit dilihat sebagai apa pun selain pamer, iklan, dan pemasaran, dan tidak menjelaskan prosedur yang dapat direproduksi
Diagram arsitektur mungkin bisa menginspirasi orang lain, tetapi tidak menyediakan hal terpenting dalam sains, yaitu falsifiability
Karena tidak ada cara untuk memeriksa apakah Google berbohong, kita harus menganggap semua contoh telah dipilih secara selektif dan diproses setelahnya
Data pelatihan model juga harus dianggap diperoleh secara ilegal, dan karena Google kini berulang kali membuat klaim yang tidak bisa dibuktikan, kita harus memulai dari skeptisisme ekstrem
Jika membandingkan performa Gemini milik Bard dengan GPT-4, hasilnya jauh tertinggal, dan video yang mereka klaim sebagai interaksi dengan model sebenarnya juga bukan demikian
Tidak ada organisasi yang semestinya beroperasi seperti ini, tetapi Google khususnya telah menjadi pelanggar kebiasaan yang serius
- Sikap seperti itu tampaknya tidak produktif bagi sains
  Jika tidak percaya pada hasilnya, abaikan saja output yang diklaim dan ambil ide intinya
  Tidak perlu mengasumsikan niat buruk untuk membatalkan apa yang mereka sebut iklan
  Sikap seperti ini mungkin membuat perasaan sedikit lebih baik, tetapi membuat klaim menjadi politis, dan jika klaim itu benar, justru akan memperlambat kemajuan
  Ada sejarah bahwa cukup banyak makalah Google pada akhirnya menjadi dasar teknologi yang berguna, meskipun hampir tidak menyertakan output yang dapat direproduksi
- Sebagai catatan, melatih model menggunakan data itu sendiri bukan tindakan ilegal
  Yang ilegal adalah membuat model mengeluarkan data yang sama persis demi keuntungan komersial
  Perbedaan ini sengaja dikaburkan, tetapi perlu dipahami
- Saya penasaran bagaimana mereka bisa mengakses Gemini Ultra
  Atau maksudnya Gemini Pro, yang dibandingkan dengan GPT-3.5?
- Video ini hampir pasti terlihat seperti ditujukan untuk investor Google: “Kami belum mati, dan pencarian juga belum mati! Ini beruang yang menari!”
  Meski begitu, jika teknologinya benar-benar seperti yang diiklankan, ini sangat impresif
- Karena Google sudah pernah ketahuan memanipulasi demo AI, cukup masuk akal untuk menganggap mereka kemungkinan besar berbohong atau memilih contoh agar terlihat bagus
  Di dunia riset sungguhan, jika tertangkap melakukan hal seperti ini, bukan hanya karya berikutnya tetapi juga karya sebelumnya akan menjadi sasaran verifikasi ketat
Contoh-contohnya jauh lebih konsisten dan bertahan lebih lama dibanding teknik-teknik lain yang pernah saya lihat sebelumnya
Dibanding model lain, kaki-kakinya lebih jarang terlihat tergelincir di lantai
Sebaliknya wajah manusia tidak terlihat bagus, misalnya pada adegan seperti senyum Mona Lisa
Secara pribadi ini terlihat seperti model generasi video pertama yang lumayan
Sunting: Baru saja melihat bahwa ini karya Google. Kalau begitu tidak akan pernah dirilis untuk publik
- Kalau dirilis, saya rasa dalam seminggu akan ada model NSFW berbasis itu yang muncul di Civitai
- Tidak, para peneliti akan membangun di atas riset ini seperti biasa, dan pada akhirnya suatu perusahaan akan membuat produk yang sukses berdasarkan banyak hasil riset, termasuk riset ini
  Saat itu kita akan mengeluh bahwa Google tertinggal
  Cukup keren bahwa Google mendanai banyak riset mutakhir dan membagikannya secara terbuka
  Entah sampai kapan ini akan bertahan
- Saya penasaran berapa banyak sampel dalam video demo ini yang benar-benar asli
  https://arstechnica.com/information-technology/2023/12/googl...
- Anda menyebut “senyum Mona Lisa”, tetapi itu bukan "Mona Lisa"[1] karya Leonardo da Vinci, melainkan "Girl with a Pearl Earring"[2] karya Johannes Vermeer
  [1] https://en.wikipedia.org/wiki/Mona_Lisa
  [2] https://en.wikipedia.org/wiki/Girl_with_a_Pearl_Earring
Saat ini tidak ada apa pun di GitHub mereka selain halaman yang ditautkan
https://github.com/lumiere-video
Mereka memang tidak pernah mengklaim akan ada sesuatu di sana sejak awal, tetapi saya tetap mengeceknya, dan saya juga tidak melihat tautan ke profil GitHub
Saya meninggalkan tautannya untuk orang yang tidak ingin mengetik langsung alamat profil dari URL situs web yang di-hosting
- Ini pola yang sering terlihat di AI/machine learning: menaruh informasi tentang sesuatu yang tidak dirilis di GitHub lalu mengatakan “ada di GitHub”
- Large language model sayangnya telah menciptakan tren baru
Inpainting video menarik
Anak-anak saya baru-baru ini menonton episode SpongeBob lama, dan rasio aspek 4:3 cukup mengganggu
Saya pikir meng-inpaint tepi kiri dan kanan untuk mengembalikannya ke 16:9 bisa menjadi kasus penggunaan yang menarik, tetapi untuk menangani objek yang masuk ke dalam frame dari samping sepertinya diperlukan semacam fine-tuning berbasis pratinjau
- Ini benar-benar terdengar seperti produk yang mungkin dibeli seseorang di industri TV dan film
  Maksudnya memperlebar video dengan rasio aspek tetap, atau menyesuaikannya secara dinamis ke ukuran yang bukan aslinya tanpa distorsi yang terlihat
  Cukup perkirakan tepi tambahan dengan cukup akurat sehingga penonton tidak menyadarinya
  4:3 <-> 16:9 <-> 143:100 (IMAX) <-> 11:8 (Academy) <-> 3:2 (35mm) <-> 16:10 (tablet/desktop)
  Juga mungkin membuat film baru terlihat seperti film bisu hitam-putih klasik lalu memberinya frame yang sesuai
  Film apa pun bisa disesuaikan agar tampak alami di layar IMAX
- Tidak bisakah videonya diproses secara terbalik saja?
Melihat sifat aneh, menyeramkan, dan seperti mimpi dari sampel-sampel kecil generasi video AI seperti ini, saya selalu kecewa karena makalah-makalah tidak pernah memasukkan prompt "dreaming of electric sheep" sebagai easter egg
Sial, pengumuman ini akan terasa mengejutkan kalau muncul 2–3 tahun lalu
Semua orang sudah terbiasa dengan rilis baru seperti ini yang datang sangat cepat, tetapi tetap saja ini menakjubkan
Saya ingin segera mencoba perangkat lunak dengan kemampuan seperti ini
Sunting: Oh tidak, ini punya Google. Saya akan menunggu sampai ada open source-nya
Tampaknya sering mencampur gambar lama dengan dataset modern
Jika diberi potret George Washington dan prompt “pria tersenyum”, apakah yang terlihat [gigi palsu][1], atau gigi putih bersih?
[1] https://en.wikipedia.org/wiki/George_Washington%27s_teeth
- Data di luar distribusi seperti itu tentu rasanya harus diberikan lewat prompt
  Tidak jelas apakah model-model seperti ini sudah membangun model dunia raksasa tentang fakta seperti model bahasa besar yang lebih besar; mereka terutama sedang memahami bagaimana benda bergerak
  Di dataset, kebanyakan orang menampilkan gigi putih bersih, dan tidak ada video mulut Washington, jadi menurut saya itu akan menjadi default kecuali kita mendeskripsikan gigi palsu yang diinginkan secara rinci
Beberapa pemikiran: karena ini Google, kemungkinan besar kita tidak akan pernah bisa mencobanya sendiri
Meski begitu, idenya sangat menarik. Model dilatih untuk terlebih dahulu menghasilkan representasi waktu menyeluruh berukuran kecil dari video, lalu melakukan upscaling baik pada dimensi waktu maupun piksel
Pada dasarnya, kalau kita pernah melihat model-model sebelumnya menambahkan peta kedalaman, ini seperti menambahkan peta waktu sebagai dimensi lain
Secara visual, konsistensinya cukup bagus
Kejanggalannya tampak lebih dekat pada bagian ketika model menentukan “apa yang harus dilakukan” suatu objek seiring waktu, bukan kegagalan umum dalam menjaga konsistensi antar-frame
Wawasan besar para peneliti Google adalah bahwa konsistensi itu sendiri dapat dikondisikan, dipelajari, dan dihasilkan, lalu frame-nya diisi
Rasanya berbagai penyedia model seperti Stability cukup mampu mereplikasinya, dan tidak ada bagian yang terlihat mustahil diimplementasikan
Ini postingan bertema piksel untuk paper bertema piksel
Cukup mengesankan, dan sepertinya akan segera berujung pada membanjirnya program “membuat film dari satu paragraf”
Karena ini karya Google, besar kemungkinan ia akan masuk ke dalam kotak dan menjadi alat Rick and Morty yang tidak akan pernah kita lihat
Saya suka format penulisan nama penulisnya
Notasi seperti 1,2,3,4,*,+ bagus untuk membedakan penulis utama, afiliasi institusi, dan kontributor kunci
Kalau sering membaca paper astronomi dan fisika, sering sekali ada lebih dari 10 penulis tetapi sama sekali tidak jelas siapa mengerjakan apa
Misalnya, pada tautan arXiv tidak terlihat format serupa
Dan ini hampir pasti akan langsung dipakai untuk pornografi penyalahgunaan
Contoh Walking Woman variasi ke-5: “Wearing no clothing”
- Tidak terpikir oleh saya, tetapi benar. Dengan teknologi seperti ini, pornografi penyalahgunaan akan segera merajalela
  Semua orang di seluruh dunia bisa segera memiliki pornografi eksplisit realistis dengan wajah mereka ditempelkan
Tahun ini kita akan melihat film panjang pertama yang dihasilkan AI
Kalau kedengarannya gila, ingat bahwa pada masa awal sinema, rata-rata panjang shot adalah 12 detik, sedangkan hari ini hanya 2,5 detik
Beberapa teknik penting seperti menjaga konsistensi subjek antar-generasi masih perlu dipoles
Namun saya pikir banyak ketidaksesuaian bisa ditutupi dengan metode yang sudah ada: memisahkan layer berdasarkan kedalaman untuk memakai gambar yang lebih statis, atau membuat model 3D sederhana bertekstur pada bagian yang membutuhkan kedalaman lebih
Dengan usaha dan kemampuan yang cukup, rasanya itu sudah mungkin dilakukan dengan teknologi saat ini
- Mudah membayangkan pembuat film membuat beberapa versi draf sebuah film untuk menyempurnakan naskah dan pengambilan gambar, seperti mereka memakai storyboard sekarang
- Mengapa harus membuat “film”? Bukankah cukup membuat satu alur cerita yang memungkinkan penonton mengganti kostum sesuka hati?
- Seperti semua media lain yang dibanjirkan orang dengan hal semacam ini, kemungkinan besar hasilnya akan benar-benar buruk

Lumiere: Model Difusi Ruang-Waktu untuk Pembuatan Video yang Realistis

Tujuan Lumiere dan materi publik

Struktur yang menghasilkan seluruh rentang waktu sekaligus

Pembuatan video dari teks dan gambar

Pembuatan bergaya dan penyuntingan video

Animasi berbasis area dan inpainting

Dampak sosial dan keselamatan

Bacaan terkait

1 komentar

Komentar Hacker News