Model Pembuatan Video sebagai Simulator Dunia

(openai.com)

1 poin oleh GN⁺ 2024-02-17 | 1 komentar | Bagikan ke WhatsApp

Melalui Sora, OpenAI mengeksplorasi apakah model pembuatan video dapat diperluas melampaui sintesis gambar bergerak sederhana menjadi simulasi dunia fisik dan digital
Desain intinya adalah memasukkan video dan gambar ke dalam ruang laten yang dikompresi secara temporal dan spasial, lalu membaginya menjadi patch ruang-waktu untuk dilatih seperti token Transformer
Sora tidak memotong ke ukuran tetap, melainkan melatih panjang, resolusi, dan rasio aspek yang bervariasi apa adanya, sehingga satu model yang sama dapat menangani pembuatan video widescreen, video vertikal, dan gambar resolusi tinggi
Menerapkan recaptioning dari DALL·E 3 ke video dan menggunakan GPT untuk memperluas prompt pendek menjadi caption terperinci, sehingga meningkatkan kesetiaan terhadap teks dan kualitas video
Konsistensi 3D, persistensi objek, dan simulasi dunia digital seperti Minecraft sebagian dimungkinkan, tetapi masih ada batasan pada interaksi fisik yang membutuhkan perubahan keadaan, seperti kaca pecah atau konsumsi makanan

Masalah yang Ditangani Sora dan Cakupan Laporan

OpenAI mengeksplorasi pelatihan model generatif skala besar pada data video
Sora adalah model difusi bersyarat teks yang melatih video dan gambar dengan berbagai panjang, resolusi, dan rasio aspek secara bersama-sama
Model terbesarnya, Sora, dapat menghasilkan video berfidelitas tinggi dengan durasi hingga 1 menit
Laporan teknis ini berfokus pada dua hal
- Cara mengubah beragam data visual menjadi representasi terpadu yang cocok untuk pelatihan model generatif skala besar
- Evaluasi kualitatif atas kemampuan dan keterbatasan Sora
Detail struktur model dan detail implementasi tidak disertakan
Riset pembuatan video sebelumnya menggunakan berbagai metode seperti recurrent neural network, GAN, Transformer autoregresif, dan model difusi, tetapi sering kali berfokus pada kategori data yang sempit, video pendek, dan video berukuran tetap
Sora dirancang sebagai model data visual serbaguna yang menghasilkan video dan gambar di berbagai panjang, rasio aspek, dan resolusi

Cara Mengintegrasikan Data Visual sebagai Patch

Seperti model bahasa skala besar yang mengintegrasikan kode, matematika, dan bahasa alami melalui token teks, Sora menggunakan patch untuk data visual
Video terlebih dahulu dikompresi ke ruang laten berdimensi rendah, lalu diuraikan menjadi patch ruang-waktu
Representasi berbasis patch bekerja secara skalabel dan efektif untuk mempelajari berbagai jenis video dan gambar

Kompresi Video dan Patch Laten Ruang-Waktu

Sora tidak menangani video mentah langsung di ruang piksel, melainkan belajar dan menghasilkan dalam representasi laten yang dikompresi secara temporal dan spasial
Model decoder terpisah memetakan kembali representasi laten yang dihasilkan ke ruang piksel
Urutan patch ruang-waktu yang diekstraksi dari video input terkompresi berfungsi seperti token pada Transformer
Gambar dapat dipandang sebagai video satu frame, sehingga dapat diproses dengan cara yang sama
Saat inferensi, ukuran video yang dihasilkan dikendalikan dengan menempatkan patch yang diinisialisasi secara acak pada kisi berukuran yang diinginkan

Menskalakan Diffusion Transformer untuk Pembuatan Video

Sora adalah model difusi yang dilatih untuk menerima patch bercampur noise dan informasi kondisi seperti prompt teks, lalu memprediksi patch bersih aslinya
Pada saat yang sama, Sora adalah Diffusion Transformer
Transformer telah menunjukkan karakteristik penskalaan di berbagai bidang seperti pemodelan bahasa, computer vision, dan pembuatan gambar, dan pada Sora juga berhasil diskalakan secara efektif sebagai model video
Dengan seed dan input yang sama, seiring pelatihan berjalan dan jumlah komputasi meningkat, kualitas sampel membaik secara jelas
- Contoh perbandingan terdiri dari base compute, 4x compute, dan 32x compute

Manfaat Melatih pada Ukuran Asli

Pendekatan pembuatan gambar dan video yang ada biasanya melakukan resize, crop, dan trim ke ukuran standar seperti 4 detik, 256x256
Sora memperoleh beberapa manfaat dari melatih data pada ukuran aslinya
Fleksibilitas Sampling
- Sora dapat melakukan sampling video widescreen 1920x1080p, video vertikal 1080x1920, dan berbagai video di antaranya
- Konten yang sesuai untuk perangkat berbeda dapat dibuat langsung dalam rasio aspek native
- Dengan model yang sama, prototipe dapat dibuat cepat pada ukuran rendah, lalu kemudian dihasilkan pada resolusi penuh
Peningkatan Framing dan Komposisi
- Melatih pada rasio aspek asli meningkatkan komposisi dan framing
- Model yang semua video latihnya dipotong menjadi persegi terkadang menghasilkan video yang hanya menampilkan subjek secara sebagian
- Sora menghasilkan video dengan framing yang lebih baik dibandingkan model crop persegi

Pemahaman Bahasa dan Pemrosesan Caption

Untuk melatih sistem pembuatan teks-ke-video, diperlukan banyak video dengan caption teks yang sesuai
OpenAI menerapkan teknik recaptioning yang diperkenalkan di DALL·E 3 ke video
Pertama, mereka melatih model yang membuat caption sangat terperinci, lalu menggunakannya untuk membuat caption teks bagi seluruh video pelatihan
Melatih dengan caption video yang terperinci meningkatkan kesetiaan terhadap teks dan kualitas video secara keseluruhan
Serupa dengan DALL·E 3, GPT digunakan untuk mengubah prompt pengguna yang pendek menjadi caption panjang dan terperinci, lalu meneruskannya ke model video
Metode ini digunakan agar Sora menghasilkan video berkualitas tinggi yang mengikuti prompt pengguna dengan lebih akurat

Pembuatan dan Pengeditan dengan Gambar dan Video sebagai Input

Sora dapat menerima bukan hanya teks, tetapi juga gambar atau video yang sudah ada sebagai prompt
Fitur ini dimanfaatkan untuk pembuatan video yang berulang sempurna, menghidupkan gambar statis, memperluas video ke waktu sebelum atau sesudahnya, dan sebagainya
Menghidupkan Gambar DALL·E
- Sora dapat menerima gambar dan prompt sebagai input untuk menghasilkan video
- Contohnya terdiri dari pembuatan video berbasis gambar DALL·E 2 dan DALL·E 3
Memperluas Video yang Dihasilkan
- Sora dapat memperluas video ke depan atau ke belakang dalam waktu
- Tiga video yang dimulai dari satu segmen video yang dihasilkan lalu diperluas ke waktu setelahnya memiliki titik awal yang berbeda, tetapi menuju akhir yang sama
- Dengan metode yang sama, video dapat diperluas ke depan dan belakang untuk membuat loop tak terbatas yang mulus
Pengeditan dan Penghubungan Video-ke-Video
- SDEdit, salah satu metode pengeditan gambar dan video berbasis model difusi, diterapkan ke Sora
- Teknik ini memungkinkan Sora mengubah gaya dan lingkungan video input secara zero-shot
- Dengan interpolasi bertahap di antara dua video input, transisi yang mulus dapat dibuat bahkan di antara video dengan subjek dan komposisi adegan yang sepenuhnya berbeda

Kemampuan Pembuatan Gambar

Sora juga dapat menghasilkan gambar
Gambar dihasilkan dengan menempatkan patch Gaussian noise pada kisi spasial dengan panjang waktu satu frame
Ukuran gambar yang dapat dihasilkan bersifat variabel dan dapat mencapai resolusi hingga 2048x2048
Contoh prompt mencakup close-up potret musim gugur, terumbu karang, seni digital anak harimau di bawah pohon apel, desa pegunungan bersalju dengan aurora, dan sebagainya

Kemampuan Simulasi yang Muncul dari Penskalaan

Model video yang dilatih dalam skala besar menunjukkan kemampuan emergen untuk mensimulasikan sebagian aspek manusia, hewan, dan lingkungan
Karakteristik ini diperlakukan sebagai fenomena yang muncul dari penskalaan tanpa inductive bias eksplisit terhadap 3D atau objek
Konsistensi 3D
- Sora dapat menghasilkan video dengan gerakan kamera yang dinamis
- Saat kamera bergerak atau berputar, manusia dan elemen adegan bergerak secara konsisten dalam ruang tiga dimensi
Konsistensi Jangka Panjang dan Persistensi Objek
- Menjaga konsistensi temporal dalam sampel video panjang adalah tantangan penting bagi sistem pembuatan video
- Sora tidak selalu berhasil, tetapi terkadang memodelkan dependensi jangka pendek dan jangka panjang secara efektif
- Dalam beberapa kasus, manusia, hewan, atau objek tetap dipertahankan meski tertutup atau keluar dari frame
- Ia dapat membuat beberapa shot dari karakter yang sama dalam satu sampel dan mempertahankan penampilannya di seluruh video
Interaksi dengan Dunia
- Sora terkadang mensimulasikan tindakan yang memengaruhi keadaan dunia dengan cara sederhana
- Contohnya adalah kasus saat jejak kuas yang ditinggalkan pelukis di kanvas tetap bertahan seiring waktu, atau saat seseorang memakan hamburger dan bekas gigitan tersisa
Simulasi Dunia Digital
- Sora juga dapat mensimulasikan proses buatan seperti video game
- Dalam contoh Minecraft, ia dapat mengontrol pemain dengan kebijakan dasar sekaligus merender dunia dan dinamikanya dengan fidelitas tinggi
- Kemampuan ini dapat dimunculkan secara zero-shot hanya dengan prompt caption yang menyebut “Minecraft”

Keterbatasan Saat Ini dan Kesimpulan

Sora memiliki berbagai keterbatasan sebagai simulator
Ia tidak dapat memodelkan fisika banyak interaksi dasar, seperti kaca pecah, secara akurat
Kasus yang mengharuskan keadaan objek berubah dengan benar, seperti interaksi memakan makanan, juga tidak selalu akurat
Contoh kegagalan seperti konsistensi yang runtuh pada sampel panjang atau objek yang tiba-tiba muncul disajikan lebih lanjut di halaman landing Sora
Kemampuan saat ini menunjukkan bahwa penskalaan berkelanjutan model video dapat menjadi jalur untuk mengembangkan simulator yang andal bagi dunia fisik dan digital beserta objek, hewan, dan manusia di dalamnya

1 komentar

GN⁺ 2024-02-17

Opini Hacker News

Sepertinya orang melewatkan apa yang dimungkinkan oleh teknologi ini. Ia bisa membuat rangkaian adegan video yang masuk akal dengan hukum fisika yang realistis, dan jika ini menjadi cukup cepat untuk bekerja secara real-time, perubahan besar akan terjadi
Jika dihubungkan ke robot yang memiliki feed kamera real-time, lalu terus-menerus membuat beberapa kemungkinan adegan masa depan dari tampilan yang masuk, robot itu menjadi robot otonom yang membangun model real-time dunia di sekitarnya dan memprediksi masa depan. Jika ditambahkan koreksi galat berdasarkan seberapa cocok tiap prediksi dengan hasil nyata, menurut saya ini bisa benar-benar mendekati AGI
Outputnya bisa dihubungkan dengan pembuatan teks atau kontrol geraknya sendiri, dan juga bisa dibayangkan cara memilih tindakan terbaik setelah memprediksi konsekuensi dari tindakan-tindakan yang dapat diambilnya. Untuk penggunaan seperti ini, gambar tidak perlu sepenuhnya fotorealistis, bebas kesalahan, atau beresolusi tinggi. Layak dipikirkan juga seberapa realistisnya imajinasi kita sendiri tentang dunia
Misalnya, robot pembersih rumah melihat gambar ruang tamu, membuat gambar ruang tamu setelah selesai dibersihkan, lalu membayangkan dengan menginterpolasi video dirinya membersihkan ruangan, bertindak sejauh mungkin sesuai video itu, kemudian membuat lagi rangkaian adegan dan bertindak lagi. Jika perlu, ini bisa diulang beberapa kali per detik
- Ini lebih mirip agen yang memiliki model dunia untuk digunakan dalam perencanaan. Sebenarnya tidak terlalu perlu menghasilkan gambar realistis; model dunia bekerja di dalam representasi abstrak terkompresinya sendiri
  Untuk sistem seperti ini, V-Jepa layak dilihat: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-jo...
- Secara teori benar, tetapi masalahnya kita sudah beberapa kali memiliki AGI secara teori. Misalnya, Q-learning memasukkan status suatu game atau sistem ke jaringan saraf, membuatnya memprediksi reward masa depan yang mungkin, lalu dengan terus memperbaiki akurasi prediksi itu, pada akhirnya akan mencapai tindakan optimal dalam sistem apa pun
  Kalau mencoba eksperimen reinforcement learning, harapan bahwa “tinggal dinyalakan lalu pasti berjalan baik dan menemukan banyak solusi keren” memang selalu menarik, tetapi dalam praktiknya, meski mungkin saja terjadi, biasanya tidak begitu. Sering ada tanda-tanda pembelajaran, tetapi tidak menghasilkan hasil yang luar biasa
  Alasan saya terus memperhatikan apakah muncul AI yang kuat di video game seperti Civilization adalah karena saya ingin melihat apakah AI bisa memecahkan masalah pada sistem kompleks sekaligus tetap cukup realistis untuk diimplementasikan secara praktis oleh pembuat game. Tim ahli mungkin bisa menyelesaikan Civilization sebagai proyek riset, tetapi itu jauh dari praktis. Bahkan sebelum AI dalam game memprediksi langkah terbaik, saya ragu apakah model video bisa memprediksi langkah terbaik hanya dengan diperlihatkan video orang-orang bermain Civilization
- Yang menarik adalah karena data video begitu banyak, sekarang muncul model yang dapat memproyeksikan masa depan dalam ruang piksel 2D
  Tujuan akhir robotika sebenarnya adalah memproyeksikan masa depan dalam ruang dunia 3D, dan menurut saya, tergantung seberapa kompleks model dunia 3D-nya, model proyeksi 3D yang bisa berfungsi mungkin jauh lebih kecil
  Hanya saja data semacam itu tidak tersedia semudah itu di internet
- Seperti yang dikatakan jawaban lain, ini berkaitan dengan gagasan AI berorientasi tujuan yang diajukan Yann LeCun di [1]. Makalahnya tidak memakai nama itu, tetapi LeCun menyebutnya demikian dalam presentasi dan slide, sekaligus mengatakan bahwa hal seperti ini tidak akan dicapai dengan model generatif
  Jika sudah lama berkecimpung di bidang AI, kita melihat beberapa terobosan yang disebut-sebut akan mengarah ke AGI, mulai dari DeepBlue, jaringan saraf konvolusional, deep reinforcement learning, hingga large language model saat ini. Setiap kali, bisa jadi itu bukan terobosan seperti yang orang pikirkan, atau AGI memang membutuhkan jauh lebih banyak hal daripada satu terobosan rekayasa
  Jika menurut Anda gagasan ini mungkin, Anda bisa mencobanya sendiri di lingkungan sederhana. Buat dunia grid kecil atau penyederhanaan game berbasis teks seperti Nethack [2], implementasikan dalam lingkungan terkendali, lalu lihat seberapa baik kerjanya. Mungkin juga bisa ditulis menjadi makalah
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
  [2] Sebaiknya jangan mulai dari Nethack itu sendiri. Itu terlalu sulit bagi “AI”
- Sistem seperti Sora jelas diperlukan, tetapi itu saja belum cukup. Jika digabungkan dengan model multimodal yang mampu bernalar dengan benar, ini bisa mendekati AGI, atau lebih tepatnya ASI
  Karena ada keunggulan seperti panjang konteks yang lebih besar daripada manusia, modalitas indra tambahan seperti inframerah atau elektroresepsi, keahlian yang jauh lebih luas, dan bandwidth yang sangat besar
  Model penerus Sora di masa depan + model penerus GPT-4 yang kuat = ASI, menurut saya
  Komentar lain yang saya tulis terkait hal ini: https://news.ycombinator.com/item?id=39391971
Saya suka karena halaman ini tidak hanya menampilkan hasil terbaik, tetapi juga beberapa contoh kegagalan
Misalnya, surfer-nya pada akhirnya berselancar di udara: https://cdn.openai.com/tmp/s/prompting_7.mp4
Ada juga adegan kaca yang seharusnya pecah tetapi tidak pecah, dan hanya cairannya yang mengalir dengan cara aneh: https://cdn.openai.com/tmp/s/discussion_0.mp4
Cara orang ini berjalan juga aneh: https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-a...
Saya juga tidak tahu peta ini berasal dari mana: https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls...
- Di beberapa video perwakilan pun terlihat kesalahan perspektif dan paralaks. Subjek manusia kadang terlalu besar dibanding orang-orang di latar, atau berdiri di bidang horizontal yang tidak cocok. Sebenarnya sampai agak bikin pusing, tapi tetap sangat mengesankan
- Kalau melihat adegan peta, sekitar detik ke-6 ada tangan ketiga yang menyingkirkan peta
- Di adegan “cara orang ini berjalan”, aneh juga kenapa ada payung yang mencuat dari bagian bawah pinggang
Melihat bagian “interaksi seperti memakan makanan tidak selalu menghasilkan perubahan status objek yang benar”, mungkin itu sebabnya mereka tidak menampilkan adegan Will Smith makan spaghetti
Kalimat “penskalakan model video adalah jalur yang menjanjikan menuju pengembangan simulator berkinerja tinggi untuk dunia fisik dan digital” menarik untuk robotika, tetapi pemanfaatan yang lebih dekat mungkin adalah mengisi celah pada adegan Gaussian splatting
Untuk membuat walkthrough 3D suatu ruang, dibutuhkan ratusan hingga ribuan foto yang mencakup semua sudut yang mungkin secara mulus, dan tetap saja akan ada bagian yang terlewat. Dengan model setingkat ini, tampaknya bagian seperti sudut tersembunyi, detail jarak dekat, serta area yang dalam rekonstruksi standar akan tersisa sebagai lubang atau blur bisa dipulihkan secara meyakinkan
Bahkan hanya dengan 5–10 foto suatu tempat, kita mungkin bisa mendapatkan adegan 3D yang halus dan realistis yang dapat dijelajahi dari sudut mana pun, dan juga memungkinkan menghapus orang atau objek yang tidak diinginkan dari adegan. Rekonstruksi hasil ekstrapolasi seperti ini mungkin tidak sepenuhnya cocok dengan kenyataan dalam setiap detail, tetapi tetap akan membuka banyak aplikasi
- Hal seperti itu lebih tepat disebut ilustrasi imajinatif sang kreator daripada “rekonstruksi”. Bagus untuk situasi ketika detail yang akurat tidak penting, tetapi kalau detail memang tidak penting, hasil yang blur pun mungkin sudah cukup
AlphaGo dan AlphaZero mencapai performa supermanusia karena ada simulator sempurna untuk Go. Dunia nyata yang kita tinggali tidak punya simulator semacam itu. Model bahasa besar murni memang sampai taraf tertentu mempelajari representasi kasar dan abstrak dari dunia yang dipersepsikan manusia, tetapi Sora adalah upaya untuk membuat simulator semacam itu dengan deep learning
Kalimat “hasil kami menunjukkan bahwa penskalakan model generasi video adalah jalur yang menjanjikan untuk membangun simulator serbaguna dunia fisik” adalah intinya
Jika simulator semacam ini menjadi cukup bagus, dari sisi software kita bisa memperoleh kemampuan robot yang serbaguna dan supermanusia. Apakah pendekatan ini benar-benar dapat dicapai masih belum pasti
Mengapa supermanusia? Karena panjang konteks yang lebih besar daripada working memory kita jelas merupakan keunggulan, dan kemampuan untuk menyimulasikan modalitas indra alternatif atau detail yang tidak familier bagi sebagian besar manusia dengan lebih rapat juga bisa menjadi keunggulan
- Sangat menarik karena berlawanan dengan intuisi saya. Saya dulu berpikir akan jauh lebih mudah menganalisis stream kamera dunia nyata, membuat apa yang terlihat menjadi representasi poligonal seperti video game, lalu membiarkan AI mengambil keputusan di atas struktur geometri itu
  Namun arus AI justru melewati tahap perantara dan bekerja langsung pada data piksel. Pendekatannya adalah berharap pemahaman tentang geometri 3D, perspektif, dan fisika muncul secara alami dari data pelatihan
- Simulator sempurna untuk dunia nyata sebenarnya sudah ada. Cukup rekam dengan kamera. Dengan sedikit waktu bagi para peneliti untuk menentukan arah dan menemukan cara belajar beberapa kali lebih cepat, mereka akan sampai ke sana
Sepertinya Ylecun beberapa kali mengatakan bahwa video lebih baik untuk melatih model besar. Alasannya karena video punya kepadatan informasi yang lebih tinggi
Hasilnya benar-benar mengesankan. Fakta bahwa model ini bisa menghasilkan video berkualitas tinggi seperti ini, serta memperluas masa lalu dan masa depan video, menunjukkan seberapa jauh model “memahami” dunia nyata, interaksi objek, komposisi 3D, dan sebagainya
Generasi gambar pun sudah harus mengetahui banyak hal tentang dunia, tetapi menurut saya generasi video memiliki jurang yang jauh lebih besar karena model harus mengetahui 3D, gerakan objek, dan interaksi
Rasanya gila bahwa adegan seseorang menggambar semuanya adalah video yang dihasilkan
Saya ingin mencobanya sendiri, tetapi tidak bisa membayangkan betapa mahal biayanya. Bisa dilatih pada resolusi penuh dan menghasilkan video hingga 1 menit
Karena generasi video selama ini sangat buruk, saya kira masih perlu beberapa tahun lagi untuk mencapai level ini, tetapi ini tampak seperti satu lagi contoh bahwa cukup tambahkan data dan komputasi. Transformer sekali lagi seolah membuktikan bahwa ia bisa mempelajari apa pun dan melakukannya dengan baik
Artikel utamanya juga mendapat banyak respons, tetapi halaman ini benar-benar luar biasa. Hasilnya sangat kuat
Contoh robotnya cukup mengecewakan, tetapi manusia dan figur latar sebagian besar dibuat dengan sangat baik, bahkan jauh lebih baik daripada kebanyakan model difusi gambar statis. Saya juga tidak menyangka model seperti ini akan secepat ini mampu mempertahankan orang yang sama saat orang tersebut berinteraksi dengan objek
Mengejutkan bahwa model ini bisa menghasilkan video dengan konsistensi 3D seperti ini tanpa pengetahuan awal 3D yang eksplisit. Bahkan cukup untuk melatih representasi 3D mirip NeRF langsung dari video tersebut: https://twitter.com/BenMildenhall/status/1758224827788468722
- Pekerjaan yang memodifikasi Stable Diffusion untuk membuat peta lingkungan bola HDR dari gambar yang sudah ada juga sama mengejutkannya: https://diffusionlight.github.io/
  Yang lebih mengejutkan adalah model diminta melakukan inpainting bola krom di tengah gambar, lalu membuat pantulan yang menunjukkan apa yang ada di belakang kamera. Model menafsirkan konteks dan membayangkan sesuatu yang masuk akal ada di lingkungan keseluruhan
- Kalau dilihat lebih teliti, sebenarnya tidak begitu. Ada sangat banyak ketidakkonsistenan dalam contoh-contohnya. Saat kamera berputar, perspektifnya benar-benar meleset, perspektif jendela berubah, dan patio tiba-tiba menjadi lebih dalam atau lebih dangkal. Saat kamera bergerak, bayangan juga kadang muncul lalu menghilang
  Dalam contoh lain, jalan, objek, dan orang tiba-tiba muncul atau menghilang, batu berubah menjadi manusia, dan kuda tiba-tiba punya kepala kedua lalu menjadi kuda terpisah yang hanya punya dua kaki
  Sekilas memang impresif, tetapi kalau diperhatikan dengan saksama, hasilnya lebih dekat ke mimpi daripada realitas. Caranya seperti membayangkan gambar dari gambar, tanpa konsistensi jangka panjang dalam waktu, ruang, dan sebab-akibat. Sulit mengatakan ini jauh lebih impresif daripada Google DeepDream yang sudah berusia 10 tahun
- Saya penasaran apakah ada varian model yang bisa dibuat untuk langsung menghasilkan mesh 3D dan animasi kamera, alih-alih gambar
- Hal yang sama juga berlaku pada model difusi 2D[1]. Tampaknya model harus memahami cara kerja 3D karena hal-hal seperti pencahayaan, bayangan, dan oklusi objek
  [1] https://dreamfusion3d.github.io/
- Saya penasaran seberapa jauh hasilnya bisa meningkat jika dilatih dengan data gambar stereo
Ide yang menarik. Sama seperti model bahasa berskala besar hanyalah “prediktor teks”, tetapi untuk memprediksi teks yang koheren dengan baik ia harus mempelajari model bahasa dan dunia, wajar jika prediktor video juga harus mempelajari model dunia yang masuk akal
Saya penasaran masih perlu berkembang beberapa orde besaran lagi agar model-model ini menjadi berguna secara serupa
Jika kemampuan seperti ini diizinkan, mungkin lewat model premium ke atas, tak lama lagi ini bisa meruntuhkan seluruh industri porno. Bukan situs webnya, melainkan para pekerja seks yang sering dieksploitasi
Siapa pun bisa mendeskripsikan seleranya sendiri, lalu langsung memvisualisasikannya tanpa perlu manusia sungguhan menderita untuk membuat video seperti ini. Saya tahu ini topik sensitif yang orang enggan bicarakan, khususnya di AS, tetapi pasarnya sangat besar dan jika dilakukan dengan benar bisa juga bermanfaat bagi umat manusia
- Untuk setiap satu aktor porno, ada ribuan konsumen porno yang sirkuit reward-nya rusak, sementara hanya sebagian aktor yang mengalami pelecehan dan banyak di antara mereka mendapat kompensasi yang cukup baik
  Menciptakan rangsangan adiktif tanpa batas adalah hal yang paling jauh dari bermanfaat bagi umat manusia
  Jika ingin melakukan sesuatu yang baik di bidang ini, lebih baik meneliti cara membatasi konsumsi

Model Pembuatan Video sebagai Simulator Dunia

Masalah yang Ditangani Sora dan Cakupan Laporan

Cara Mengintegrasikan Data Visual sebagai Patch

Kompresi Video dan Patch Laten Ruang-Waktu

Menskalakan Diffusion Transformer untuk Pembuatan Video

Manfaat Melatih pada Ukuran Asli

Fleksibilitas Sampling

Peningkatan Framing dan Komposisi

Pemahaman Bahasa dan Pemrosesan Caption

Pembuatan dan Pengeditan dengan Gambar dan Video sebagai Input

Menghidupkan Gambar DALL·E

Memperluas Video yang Dihasilkan

Pengeditan dan Penghubungan Video-ke-Video

Kemampuan Pembuatan Gambar

Kemampuan Simulasi yang Muncul dari Penskalaan

Konsistensi 3D

Konsistensi Jangka Panjang dan Persistensi Objek

Interaksi dengan Dunia

Simulasi Dunia Digital

Keterbatasan Saat Ini dan Kesimpulan

Bacaan terkait

1 komentar

Opini Hacker News