Meta Movie Gen - Standar Baru untuk Konten AI Imersif

(ai.meta.com)

1 poin oleh GN⁺ 2024-10-05 | 1 komentar | Bagikan ke WhatsApp

Meta Movie Gen adalah riset model media AI yang menangani pembuatan video dan suara, pengeditan video yang sudah ada, serta pengubahan gambar pribadi menjadi video dalam satu tempat hanya dengan input teks sederhana
Pembuatan video mendukung hasil berkualitas tinggi berdurasi panjang dan berbagai rasio aspek, dan Meta menonjolkannya sebagai fitur pertama di industri
Pada video yang sudah ada, perubahan gaya, transisi, dan pengeditan presisi dapat diterapkan melalui teks, sehingga memungkinkan transformasi seperti mengubah lentera menjadi gelembung sabun yang melayang di udara
Jika foto dan teks dimasukkan bersama, akan dibuat video personalisasi yang mempertahankan identitas dan gerakan seseorang, dengan contoh seperti adegan laboratorium, selfie, western, dan DJ
Efek suara, musik latar, hingga soundtrack lengkap dapat dibuat dan diperluas, sehingga alur produksi video berlanjut dari pembuatan visual hingga komposisi audio

Pekerjaan yang Ditangani Movie Gen

Meta Movie Gen adalah model fondasi media AI yang dirilis sebagai hasil riset terbaru Meta
Menangani berbagai pekerjaan produksi dalam satu alur input teks
- Pembuatan video kustom
- Pembuatan suara
- Pengeditan video yang sudah ada
- Mengubah gambar pribadi menjadi video unik
Meta memosisikan Movie Gen sebagai standar baru untuk konten AI imersif

Pembuatan Video Berbasis Teks

Movie Gen membuat video berkualitas tinggi berdurasi panjang dalam berbagai rasio aspek dari input teks
Meta menyatakan fitur ini sebagai yang pertama di industri
Prompt dapat menentukan adegan, subjek, gerakan, latar, dan kondisi pencahayaan sekaligus
- Adegan seekor kukang memakai kacamata hitam merah muda berbaring di atas pelampung donat sambil memegang minuman tropis
- Adegan seorang pria memegang alat berapi di kedua tangan dan membuat gerakan melingkar di tepi laut
- Koala yang berselancar sambil memegang papan selancar kuning
- Hantu berkain putih yang menari di depan cermin loteng berdebu
- Monyet berwajah merah yang bermain dengan perahu layar kecil di pemandian air panas

Mengedit Video yang Sudah Ada dengan Teks

Movie Gen mendukung pengeditan presisi yang mengubah video yang sudah ada melalui input teks
Cakupannya mencakup perubahan gaya, transisi, hingga pengeditan mendetail
Dalam contohnya, digunakan transformasi yang mengubah lentera menjadi gelembung sabun yang melayang ke udara

Video Kustom dari Gambar Pribadi

Jika pengguna mengunggah foto dirinya dan memasukkan teks sederhana, Movie Gen membuat video personalisasi
Hasil yang dibuat disusun dengan cara yang mempertahankan identitas dan gerakan orang tersebut
Contoh adegannya mencakup berbagai lingkungan dan aksi
- Pria yang bereksperimen di laboratorium dengan wallpaper pelangi
- Wanita yang melukis di kanvas pada easel di ruangan berpanel kayu
- Adegan seorang pria dan anak anjing beagle mengambil selfie di patio halaman belakang
- Adegan seorang pria memakai topi bertepi lebar dan mantel cokelat memegang teh di gurun
- Cowgirl menunggang kuda putih di kota western tua
- DJ wanita dan seekor cheetah yang memutar rekaman di rooftop LA

Pembuatan Suara yang Disesuaikan dengan Video

Movie Gen dapat membuat atau memperluas efek suara, musik latar, dan soundtrack lengkap melalui input teks
Suara yang dihasilkan dirancang untuk mencerminkan tone, ritme, dan gaya video
Contoh input menentukan suara spesifik sekaligus suasana musik
- Adegan hujan mengguyur tebing dan seseorang, sementara musik latar diputar
- Suara daun bergemerisik dan ranting patah, disertai musik orkestra
- Adegan mesin ATV menggeram keras saat berakselerasi, disertai musik gitar
- Suara roda skateboard berputar dan benturan saat mendarat di beton
- Komposisi orkestra yang membangkitkan rasa takjub
- Ledakan tajam setelah siulan dan suara crackling yang keras

Kolaborasi dengan Kreator dan Industri Hiburan

Meta berkolaborasi dengan Blumhouse, perusahaan produksi peraih penghargaan, melalui Creative Industry Feedback Program
Blumhouse memilih para pembuat film yang akan membuat video sebelum debut publik Movie Gen
Para kreator diminta menggunakan kumpulan alat media AI untuk membuat hasil yang menurut mereka menarik atau berguna
Judul video sutradara Aneesh Chaganty adalah "i h8 ai"

Contoh Publik dan Referensi

Meta menyatakan bahwa para kreator mengubah storytelling dengan Movie Gen
Contoh Instagram mencakup akun dan prompt berikut
- @paigepiskin: tangan yang memegang tarantula berwajah anak kucing kecil berbulu halus, edit yang mengubah anjing menjadi bayi naga abu-abu
- @ka5sh: alien kartun hijau memakai sepatu badut merah muda, edit yang mengubah seseorang menjadi alien hijau memakai bucket hat merah
- @girls: gadis yang berjalan di jalan pepohonan musim gugur, dua wanita yang minum kopi di depan dinding dengan dekorasi Halloween
- @memezar: pertandingan tinju antara bayi kuda nil dan gorila berotot
- @ravivora: menambahkan kabut tebal di latar depan, wanita yang naik ke permukaan air dikelilingi ubur-ubur
Sebagai materi tambahan, tersedia makalah riset Movie Gen, dan Meta menyatakan telah menetapkan benchmark industri baru dalam pembuatan media AI
Artikel terkait menautkan blog tentang kolaborasi dengan industri hiburan dan kreator serta era pembuatan konten berbasis AI

1 komentar

GN⁺ 2024-10-05

Pendapat di Hacker News

Fitur mengedit video dengan teks adalah yang paling menarik. Sepertinya bisa langsung dipakai untuk film indie yang tidak punya anggaran CGI.
Misalnya, pertama-tama merekam di kursi lounge seperti adegan bioskop, lalu kemudian mengubahnya agar terlihat seperti bioskop.
- Sepenuhnya setuju. Penggantian latar yang menempatkan pria itu di latar stadion sudah cukup layak dipakai apa adanya sebagai potongan dalam film atau acara TV, dan latarnya juga cukup meyakinkan sehingga tampaknya tidak ada yang akan merasa aneh.
  Jika digunakan dengan tepat, ini akan menaikkan kualitas film indie atau film pendek, dan batasnya hanya kreativitas.
- Saya jadi bertanya-tanya, untuk apa repot-repot memakai aktor. Aktor butuh biaya dan jadwalnya sulit diatur. Buat saja semuanya dengan AI.
  Lagi pula, modelnya pasti dilatih dengan aktor-aktor yang lebih baik daripada para pemeran film indie.
Ini bukan film, melainkan klip. Industri foto dan video stok jelas pasti khawatir, dan karena kemungkinan model-model ini dilatih dengan karya mereka adalah 100%, mereka juga akan menggugat.
Jika teknologi ini suatu hari membuat film, hasilnya mungkin akan menjadi nilai rata-rata dari semua yang pernah dibuat sejauh ini, seperti yang dibuat model teks, gambar, dan musik, sehingga hasilnya luar biasa biasa-biasa saja.
- Saya membayangkan di alat produksi film kita memberi instruksi seperti, “Masukkan model A ke adegan 32f, tambahkan kerumunan, lalu perbesar A. Ekspresinya harus sangat khawatir.”
  Setelah itu kita bisa terus menyesuaikan adegan, menyimpannya, lalu lanjut ke adegan berikutnya. Kalau AI bisa menyambung animasi, ketika sudah lebih maju nanti rasanya tidak ada alasan ia tidak bisa mereproduksi model yang diberikan dengan setia.
- Pada akhirnya, kedua industri itu akan sama seperti tempat lain: adopsi atau mati. Pemenang besarnya tampaknya adalah pihak yang tidak menyerahkan semuanya ke AI, tetapi memakai alat baru ini secara kreatif.
- Sudah ada beberapa festival film pendek AI dan video musik AI. Namun kualitasnya naik-turun, dan karya-karya terbaik pada akhirnya adalah yang punya kemampuan dasar produksi seperti penyuntingan yang baik dan niat penyutradaraan yang kuat.
  Saya tidak tahu apakah film panjang sudah ada atau sedang dibuat.
- Masalahnya, perusahaan-perusahaan video stok seperti ini harus berhadapan dengan perusahaan-perusahaan terkaya dalam sejarah. Tindakan hukum membutuhkan uang dan waktu yang luar biasa besar.
  Saya tidak suka mengatakannya, tetapi dalam kondisi sekarang, jika AI terus tumbuh seperti saat ini, kemungkinan besar perusahaan teknologi akan meresap ke mana-mana dan menjadi sangat kuat.
Saya tidak mengerti mengapa ada begitu banyak situs web yang pada dasarnya berupa HTML statis, tetapi tetap membuat ponsel tersendat-sendat.
Videonya memang terlihat keren, tetapi kalau ponsel berhenti setiap 2 detik, membaca artikel terkait jadi tidak menyenangkan.
- Di Pixel 6a dan browser Chromium juga terlihat stutter yang aneh. Karena di mobile saya tidak bisa memeriksa source-nya, tetapi ini tidak mungkin hanya HTML statis.
  Saat menggulir halaman, sebagian teks menghilang lalu muncul lagi, dan itu bukan animasi berbasis scroll, melainkan nyaris acak. Rasanya ada sesuatu yang memblokir loop rendering browser sehingga tidak bisa mengejar penggambaran teks sebenarnya. Untuk halaman sesederhana ini, itu bug yang tidak masuk akal, tetapi kalau mereka memakai React di sini, sekarang saya rasa apa pun bisa terjadi.
- Di sini tidak terlalu parah tersendatnya, tetapi saat elemen gambar atau video dimuat, jelas ada pergeseran layout.
- Jika JavaScript dimatikan, sebenarnya cukup bisa dipakai dan cepat.
- Mungkin perusahaan yang membuat hal seperti ini kurang punya kemampuan pengembangan web.
- Penasaran browser apa yang dipakai.
Manusia terlalu bergantung pada input visual dan hiburan visual. Namun visual-visual seperti itu makin terasa tidak bermakna, dan semuanya tampak seperti konten sampah ala fast food.
Fakta bahwa anak prasekolah pun akan bisa membuat apa pun yang dapat mereka bayangkan dalam beberapa detik tidak membuatnya menjadi lebih baik atau memiliki nilai nyata. Mungkin justru itulah nilai teknologi ini. Bisa jadi akan datang era ketika kita boleh sepenuhnya melupakan hal-hal seperti film, yang membayangkan cerita lewat visual. Karena tak seorang pun akan peduli lagi.
- Itu juga visual seperti junk food. Sulit menjelaskannya selain mengatakan bahwa tampilannya seperti campuran Fisher-Price dan jamur halusinogen ringan.
- Benar. Saya juga tidak pernah memahami daya tarik fotografi. Terlalu mudah, tidak perlu menghabiskan berjam-jam menggambar untuk membuat sesuatu yang orisinal, cukup beli kamera dan tekan tombol.
  Saya tidak mengerti mengapa orang mau membayar untuk itu.
Selama bertahun-tahun saya sudah mengatakan bahwa tsunami konten generatif akan menelan suara manusia sungguhan di internet. Akibatnya, internet bisa menjadi praktis tidak berguna untuk hal selain hiburan.
- Menarik, dan sebagian sudah terlihat seperti itu. Dulu saya mengira kebanyakan orang di sini atau forum lain adalah manusia, tetapi sekarang rasanya tidak begitu.
  Di grup chat pun terlihat ada seorang teman yang memakai jawaban AI, sementara anggota lain tidak menyadarinya dan menanggapinya dengan serius. Hal seperti ini terasa menjijikkan, dan secara naluriah saya ingin menghindari konten sampah AI. Sekarang saya tidak tahu apa berikutnya, atau harus pergi ke mana. Saya tidak tahu apakah forum “manusia” akan terdorong ke sudut internet yang lebih dalam, atau semua orang akan lebih memilih pertemuan offline.
- Mungkin itu hal yang baik. Internet tidak pernah mencapai potensinya sebagai jaringan yang menghubungkan umat manusia. Sebagian besarnya hanyalah marketing dan spam.
  Jika internet mati dan semua orang kembali ke komunitas yang lebih kecil, menurut saya itu tidak terlalu buruk. Lagi pula, kita memang tidak berevolusi untuk komunikasi dalam skala seluruh planet.
- Saya tidak tahu mengapa harus peduli.
  Pernah lihat apa yang dikatakan kebanyakan manusia? Kalau AI mengatakan hal yang lebih cerdas, saya setuju saja.
- Akan bagus kalau bisa pindah ke komunitas berisi pengguna manusia yang terverifikasi. Cakupannya lebih kecil daripada media sosial.
- Internet dulu seperti tempat persembunyian bagi para geek untuk bersembunyi, bermain, dan bersenang-senang. Setelah smartphone ditemukan, atau mungkin bahkan sebelum itu, semuanya rusak seperti “Eternal September”.
  Belakangan ini saya lebih ingin menghabiskan waktu offline. Masih adakah tempat persembunyian lain berbasis internet yang bebas iklan, perebutan perhatian, dan konten sampah AI?
Sulit menemukan ungkapan yang lebih tepat, tetapi semua video memiliki kilap khas AI generatif yang langsung dikenali. Bagian yang paling kentara juga perubahan-perubahan halus di tepi objek, yang menciptakan artefak buram
- Menurutku itu saja belum cukup. Video-video ini berkualitas tinggi. Kalau diunggah ke media sosial, sebagian besar cacatnya akan hilang karena kompresi
  Sudah terbukti juga bahwa orang jauh lebih jarang menyadari sesuatu sebagai AI saat mereka tidak memperkirakan konten AI. Kalau sedang lengah, mungkin sebagian besar video ini akan kupercaya 100% nyata
- Kilap itu terlihat seperti filter yang dipakai orang-orang yang menyalin video dari TV atau film lalu mengunggahnya ke tempat seperti Facebook Reels
  Ada banyak Reels dengan pola menambahkan cukup banyak noise pada konten curian agar lolos dari filter pendeteksi konten. Di komentarnya ada tautan ke situs penipuan, dan ditandai sebagai “halaman IMDB konten ini”
- Gerakannya terlihat aneh. Anak perempuan kecil di pantai itu bergerak seperti orang dewasa, pelukisnya benar-benar seperti boneka tali, dan semuanya terasa seperti slow motion
- Setidaknya manusia dalam video ini tampaknya semua punya jumlah jari yang benar, jadi itu memang kemajuan. Moo Deng entah bagaimana tampaknya memang punya kilap alami, jadi itu tidak bisa disalahkan
  Namun masalah di bagian tepi masih besar
- Aku penasaran seberapa besar RLHF atau penyesuaian model berbasis manusia lainnya berkontribusi pada oversaturasi dan kontras berlebihan seperti ini
  Konsumen rata-rata tampaknya lebih menyukai ciri-ciri seperti itu saat membandingkan gambar atau video, dan menggunakannya sebagai heuristik untuk menilai kualitas. Ada juga perbandingan antara model text-to-image lama dan generasi terbaru yang berargumen bahwa model lama yang lebih sedikit disentuh tidak terlalu condong ke output yang kitsch dan dilebih-lebihkan seperti model terbaru
Mungkin aku terlalu berpikiran tertutup, tetapi siapa sebenarnya yang menginginkan hal seperti ini, dan apakah ada yang memikirkan dampak dari pembuatan sampah AI yang mudah diakses?
Di internet saja, kalau tidak tahu harus melihat ke mana, menemukan konten berkualitas sudah hampir mustahil
- Ke depannya akan makin buruk, dan nilai agregator sekaligus gatekeeper akan melonjak luar biasa
- Jawaban untuk “siapa yang menginginkan ini” adalah: pernah dengar lelucon “karena kita bisa”?
- Aku menginginkannya, dan cukup senang hal ini terjadi. Saat bersandar dan memejamkan mata, terbuka era komputasi baru di mana visi dalam kepala bisa diwujudkan tanpa kru produksi Hollywood
Kedua anakku sangat kreatif, dan mereka takut AI akan membuat mereka tidak bisa mencari nafkah dari berkarya. Namun belakangan aku juga punya pikiran lain
Selama puluhan tahun, kita menghabiskan miliaran, mungkin triliunan dolar untuk meningkatkan teknologi hiburan. Jika AI bisa membuat hiburan apa pun yang bisa dibayangkan, mungkin kita akan mulai merasa hiburan seperti itu membosankan. Saat itu, eksplorasi antariksa, perluasan pengetahuan fisika dan kimia, serta perjuangan melawan penyakit mungkin akan dinilai jauh lebih menarik. Karena semua itu nyata. Dari sudut pandang yang sama, seni buatan manusia juga bisa menjadi lebih menarik karena ia nyata
- Saat berbicara dengan orang-orang di dunia nyata, hampir selalu kembali ke titik itu. Kebanyakan orang menganggap hasil AI menarik sebagai hal baru, tetapi tidak terlalu menarik pada level artistik
  Orang-orang yang tergila-gila pada AI kebanyakan hanya terlihat online; sulit mencari ungkapan yang lebih baik, tetapi mereka tampak benar-benar tenggelam dalam dunia online, dan seperti orang-orang yang tidak punya keterampilan, pengetahuan, atau kemampuan untuk membuat seni sendiri. Begitu seseorang berkata “dibuat AI”, secara artistik minatnya langsung hilang. Ini berbeda dari memakai Photoshop atau alat seni digital. Mengedepankan intervensi manusia yang minimal sebagai keunggulan, begitu itu disajikan sebagai seni, bagiku sejak awal sudah tidak masuk akal. Aku akan melihat apakah visi utopis tentang teknologi ini terwujud, tetapi aku sudah berkali-kali melihat optimisme yang menggebu-gebu terhadap teknologi baru akhirnya mengeras menjadi sampah hambar ala MBA yang berpusat pada iklan, jadi aku tidak terlalu optimis
- Ada sudut pandang lain juga
  Di Twitter aku mengikuti banyak komunitas baru pembuat AI, dan di komunitas ini ada banyak orang dari industri kreatif. Seseorang yang bekerja di industri periklanan baru-baru ini berbagi cerita tentang syuting untuk merek terkenal. Soundstage, aktor, audio, tata rias, pencahayaan, dan sebagainya disiapkan selama 3 hari, dan sekitar 25 orang bekerja selama 3 hari. Namun jika termasuk praproduksi dan pascaproduksi, ada sekitar 3 bulan kerja di belakangnya. Bayangkan penyuntingan, color grading, penyuntingan audio, musik, dan sebagainya. Anak-anak kreatif mungkin akan hidup di dunia tempat mereka bisa mencapai hasil serupa sendiri. Dengan tim kecil, misalnya satu orang mengurus karakter, satu orang audio, satu orang naskah. Tanpa peralatan sewaan puluhan ribu dolar dan 25 profesional, dengan ketekunan dan alat generatif AI, mereka bisa mewujudkan ide di kepala. Aku sungguh percaya alat-alat baru ini akan membuka potensi jauh melampaui yang sekarang kita bayangkan
- Mungkin faktor pembatas dalam kemampuan membuat seni bukan lagi keterampilan yang dibutuhkan untuk membuat film, melukis, atau memainkan alat musik, melainkan kreativitas
- Cat tidak menggantikan arang, fotografi tidak menggantikan lukisan, seni digital tidak menggantikan media fisik, dan pembuatan level gim secara acak tidak menggantikan arsitektur
  Karya buatan AI akan menemukan tempatnya di samping karya buatan manusia. Bahkan bisa jadi ia menonjolkan perbedaan yang dihasilkan sedikit bakat manusia, sehingga memperbaiki pasar film seni dan akting yang bagus. Yang terancam bukan seni, melainkan pekerjaan remeh. Yang berubah adalah skala karya buruk buatan manusia yang dulu mempekerjakan jutaan orang bergeser menjadi karya buruk buatan AI yang hanya mempekerjakan puluhan orang
- Bahkan tanpa AI, mencari nafkah dari kreativitas pada dasarnya memang tidak berhasil bagi kebanyakan orang. Ekspresi kreatif ada untuk dirinya sendiri, dan orang-orang yang bisa hidup darinya adalah pengecualian yang beruntung
Ini benar-benar luar biasa. Konsistensi spasial dan temporalnya sulit dipercaya
Hasil yang bisa diperkirakan seperti ini. Semua naskah Hollywood sekarang akan diajukan bersama film pravisualisasi, akan muncul konverter yang mengubah komik menjadi animasi, dan iklan online untuk jauh lebih banyak produk akan dibuat
- Pravisualisasi dan storyboard akan mendapat manfaat luar biasa dari teknologi ini. Pada akhirnya tampaknya ini juga bisa dipakai untuk B-roll atau footage unit kedua
  Setelah itu, kita lihat apakah teknologi ini akan mandek atau naik lebih jauh
- “Film” berkualitas rendah buatan AI dan naskah yang dilengkapi blocking adalah konsep yang menarik
  Mengubah komik menjadi animasi sudah ada. Iklan, terutama iklan sosial dan online, juga sudah terjadi

Meta Movie Gen - Standar Baru untuk Konten AI Imersif

Pekerjaan yang Ditangani Movie Gen

Pembuatan Video Berbasis Teks

Mengedit Video yang Sudah Ada dengan Teks

Video Kustom dari Gambar Pribadi

Pembuatan Suara yang Disesuaikan dengan Video

Kolaborasi dengan Kreator dan Industri Hiburan

Contoh Publik dan Referensi

Bacaan terkait

1 komentar

Pendapat di Hacker News