Google DeepMind Veo - model video generatif paling kuat

(deepmind.google)

11 poin oleh GN⁺ 2024-05-15 | 2 komentar | Bagikan ke WhatsApp

Veo adalah model pembuatan video paling kuat hingga saat ini.
Dapat menghasilkan video resolusi 1080p berkualitas tinggi dengan durasi lebih dari 1 menit.
Mendukung berbagai gaya sinematik dan visual.
Secara akurat menangkap nuansa dan tone dari prompt, serta memberikan kontrol kreatif.
Memahami efek sinematik seperti time-lapse atau pengambilan gambar udara untuk lanskap.
Membantu membuat produksi video lebih mudah diakses oleh siapa saja.
Membuka kemungkinan baru bagi sineas berpengalaman, kreator, pendidik, dan lainnya.
Sejumlah fitur akan disediakan melalui alat eksperimen baru bernama VideoFX.
Ke depannya, Google juga berencana menerapkan kemampuan Veo ke YouTube Shorts dan produk lainnya.

Pemahaman bahasa dan visi yang lebih mendalam

Harus dapat menafsirkan prompt teks secara akurat dan menggabungkannya dengan referensi visual yang relevan.
Memahami bahasa alami dan makna visual pada tingkat lanjut untuk menghasilkan video yang setia mengikuti prompt.
Merender detail secara presisi di dalam adegan yang kompleks.

Fitur kontrol untuk pembuatan film

Jika pengguna memberikan video input dan perintah pengeditan, Veo akan menerapkannya untuk menghasilkan video baru yang telah diedit.
Mendukung pengeditan mask, sehingga area tertentu dalam video dapat diubah.
Jika gambar dan prompt teks diberikan bersama, Veo akan menghasilkan video yang mengikuti gaya dan instruksi tersebut.
Dapat membuat dan memperpanjang klip video lebih dari 60 detik melalui satu prompt atau serangkaian prompt.

Menjaga konsistensi antar frame video

Menjaga konsistensi visual dalam model pembuatan video adalah tantangan.
Transformer difusi laten terbaru milik Veo membantu mengurangi terjadinya ketidakkonsistenan ini.
Mempertahankan karakter, objek, dan gaya agar tetap konsisten seperti di dunia nyata.

Dibangun di atas riset pembuatan video selama bertahun-tahun

Veo dibangun di atas riset seperti Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, dan Lumiere.
Memanfaatkan arsitektur Transformer dan Gemini.
Menambahkan lebih banyak detail pada caption tiap video agar prompt dapat dipahami dan diikuti dengan lebih akurat.
Meningkatkan performa dengan menggunakan representasi video terkompresi berkualitas tinggi.

Desain yang bertanggung jawab

Penting agar Veo diperkenalkan ke dunia secara bertanggung jawab.
Video yang dihasilkan Veo akan diberi watermark menggunakan SynthID.
Risiko privasi, hak cipta, dan bias dikurangi melalui filter keamanan dan proses memory check.
Masa depan Veo dirancang melalui kolaborasi dengan kreator dan sineas utama.
Melalui masukan mereka, teknologi video generatif dapat ditingkatkan dan memberi manfaat bagi komunitas kreatif yang lebih luas.

Opini GN⁺

Inovasi Veo: Veo adalah model pembuatan video berkualitas tinggi yang membuka kemungkinan baru bagi para kreator.
Pemanfaatan edukatif: Dapat sangat membantu para pendidik dalam menyampaikan pengetahuan melalui video.
Penerapan teknologi yang bertanggung jawab: Veo dapat digunakan secara bertanggung jawab melalui watermark dan filter keamanan.
Produk pesaing: Perlu ada perbandingan dengan model pembuatan video lain yang menawarkan fitur serupa.
Pertimbangan adopsi teknologi: Saat mengadopsi Veo, isu privasi dan hak cipta perlu dipertimbangkan secara matang.

2 komentar

xguru 2024-05-15

Memang kalau tidak ada Sora, ini sudah sangat luar biasa.. jadi terasa ada perbandingannya. Entah bagaimana Google bisa jadi begini T_T

GN⁺ 2024-05-15

Opini Hacker News

Ringkasan kumpulan komentar Hacker News

Keterbatasan dari sudut pandang produksi film
- Opini: Dengan teknologi saat ini, belum akan banyak memengaruhi produksi film. Diperlukan fitur yang memungkinkan sutradara memberi arahan yang spesifik. Saat ini, hasilnya terutama masih di level konten B-roll.
Teknologi SynthID milik Google
- Opini: Google menambahkan watermark pada video buatan AI dengan menggunakan teknologi SynthID. Teknologi ini diterapkan tidak hanya pada video, tetapi juga pada gambar, teks, dan audio.
Perbandingan dengan Sora
- Opini: Sora terlihat lebih mengesankan. Sora menangani klip panjang dan gerakan cepat dengan baik. Sebaliknya, demo saat ini hanya berisi klip pendek dan gerakan lambat. Satu-satunya yang cukup layak dibandingkan adalah video cyberpunk, tetapi konsistensinya kurang.
Video contoh 60 detik
- Opini: Tautan ke video contoh 60 detik disediakan. Tautan YouTube
Tidak adanya video manusia
- Opini: Tidak adanya video manusia bisa menunjukkan bahwa teknologi ini masih kesulitan menghasilkan manusia.
Perubahan durasi shot film
- Opini: Menurut artikel Wired tahun 2014, rata-rata durasi shot dalam film berbahasa Inggris menurun dari 12 detik pada 1930-an menjadi 2,5 detik saat ini. Teknologi ini bisa memberi dampak yang lebih besar di dunia nyata. Tautan artikel Wired
Kesan terhadap video demo
- Opini: Video demonya menarik. Namun, dibandingkan demo Sora, tidak terlalu mengesankan. Untuk sesuatu yang diumumkan Google, hasilnya terasa di bawah ekspektasi. Sora sendiri belum dirilis, dan Veo mungkin masih bisa menawarkan lebih banyak.
Cara menjaga konsistensi
- Opini: Ada rasa penasaran tentang bagaimana teknologi terbaru Veo menjaga konsistensi. Apakah ada memori temporal antar-frame?
Kemiripan dengan Westworld
- Opini: Thumbnail prompt contoh pertama mirip dengan android Gunslinger dari Westworld tahun 1973. Itu merupakan salah satu contoh awal penggunaan computer graphics. Tautan YouTube
Kebingungan pada segmen Donald Glover
- Opini: Segmen Donald Glover terasa membingungkan. Hanya beberapa klip pendek yang ditampilkan, sehingga ekspektasi akan sebuah film pendek berakhir dengan kekecewaan.