Rilis Sora 2: Model generasi berikutnya OpenAI untuk pembuatan video dan audio (Sora 2 is here)
(openai.com)🔑 Sorotan Utama
• Simulasi fisika yang lebih realistis
• Jika model sebelumnya menampilkan keberhasilan dengan “memindahkan” objek secara instan, Sora 2 kini juga mereproduksi kegagalan fisik dan pantulan balik yang nyata.
• Memberikan hasil yang lebih mendekati hukum fisika, seperti bola basket yang mengenai ring lalu memantul keluar.
• Kontrol & konsistensi yang lebih canggih
• Dapat mengikuti instruksi kompleks dengan akurat (beberapa shot, transisi adegan, mempertahankan status).
• Menjaga world state karakter/objek di antara adegan.
• Keberagaman gaya
• Mampu menghasilkan video berkualitas tinggi dalam berbagai gaya seperti realisme, sinematik, dan animasi.
• Mendukung pembuatan audio yang tersinkronisasi hingga musik latar, efek suara, dan dialog.
• Fitur “Upload yourself” (Cameos)
• Pengguna dapat mengunggah video dan audio pendek → model dapat menyisipkan orang tersebut ke adegan apa pun.
• Mencerminkan penampilan + suara sekaligus.
• Kontrol tetap ada pada pengguna, dengan izin akses dan penghapusan yang tersedia.
• Peluncuran aplikasi sosial ‘Sora’ (iOS)
• Jaringan sosial baru yang berpusat pada fitur pembuatan/remix/berbagi.
• Dimulai berbasis undangan, lebih dulu diluncurkan di Amerika Serikat dan Kanada.
• Dasar gratis + batas pemakaian tertentu, model Pro/generasi tambahan direncanakan berbayar.
• Keamanan dan peluncuran yang bertanggung jawab
• Algoritma feed: berfokus pada “mendorong kreasi” alih-alih optimasi waktu habis pakai.
• Perlindungan remaja: membatasi jumlah paparan di feed, menyediakan kontrol orang tua.
• Hak cipta/persetujuan: pengguna Cameo dijamin hak akses/penghapusan.
• Memperkuat moderasi manusia untuk menangani perundungan/penyalahgunaan.
• Konteks teknis
• Jika Sora 1 adalah “GPT-1 for video”, maka Sora 2 adalah “GPT-3.5 moment”.
• Pre-training dan post-training pada data video yang lebih besar → selangkah lebih dekat ke model simulasi dunia.
• Rencana ke depan
• Juga dapat diakses di sora.com.
• Sora 2 Pro untuk pengguna Pro akan segera tersedia.
• Ada rencana untuk membuka API.
• Sora 1 Turbo yang lama juga akan tetap dapat digunakan.
⸻
📝 TL;DR
• Sora 2 = model pembuatan video dan audio yang secara fisik lebih presisi
• Dapat menyisipkan cameo orang/objek → dinikmati lewat aplikasi sosial Sora
• Platform berfokus pada sosial+kreasi → mendorong produksi konten alih-alih konsumsi waktu
• Peluncuran awal: iOS di Amerika Serikat & Kanada → akan diperluas ke web/Pro/API
2 komentar
Kalau semakin banyak video seperti ini dibuat, mungkin justru orang-orang bisa jadi menjauh dari kecanduan shorts. Jika shorts tentang naik supercar bisa dibuat juga dengan wajah saya, seberapa berharga lagi shorts supercar nantinya?
Komentar Hacker News
OpenAI tampaknya mencoba menjadikan Sora sebagai jejaring sosial, semacam versi AI dari TikTok (AITok)
Aplikasi web-nya berfokus pada struktur yang berpusat pada konsumsi seperti feed, suka∙komentar pada postingan, profil pengguna, dan sebagainya
Pembuatan video hanyalah elemen tambahan; video yang dihasilkan sangat pendek dan pengaturannya juga sederhana (hanya bisa memilih horizontal/vertikal)
Video yang panjang atau berfokus pada cerita, fitur pengeditan lanjutan, dan sebagainya bahkan tidak disebutkan atau dicoba, dan ada banyak keterbatasan fungsi dibandingkan platform lain seperti Google Flow
Mereka melampirkan video uji akurasi fisika, tetapi Veo juga tidak mampu bekerja dengan baik pada prompt tersebut
Selain itu, menarik juga karena ada video yang cukup mengesankan sekaligus video yang kasar
Contoh fisika Sora 1
Contoh fisika Sora 2
Contoh Veo 1
Contoh Veo 2
Secara pribadi saya menyukai teknologi inovatif dan AI, tetapi saya tidak yakin apakah "TikTok but AI" adalah upaya yang diinginkan secara sosial
Saya penasaran apakah ada dampak positif yang jelas yang bisa diperoleh dari ini
Kecuali efisiensi daya untuk pembuatan video meningkat secara dramatis, atau biaya energi menjadi nyaris nol
saya rasa kecil kemungkinan layanan konsumsi video real-time berskala besar setingkat TikTok bisa berkelanjutan dari sisi profitabilitas
Untuk saat ini, video yang benar-benar diunggah manusia jauh lebih hemat daya dan biaya
Strategi OpenAI untuk membesarkan Sora sebagai jejaring sosial sebenarnya adalah pendekatan yang sudah diterapkan Midjourney pada gambar
Midjourney Explore - Videos
Banyak orang menikmati gaya gambar khas Midjourney, dan modelnya belajar melalui rating dan interaksi
Dalam pembuatan gambar, tingkat 'estetika' juga lebih mudah ditangani
Meta juga baru-baru ini melakukan percobaan serupa
Meta mengumumkan Vibes AI Video
Memperkuat fitur feed yang berpusat pada konsumsi jelas merupakan salah satu arah
Alasan lainnya adalah, dibanding banyak pengguna sama-sama menghabiskan sumber daya pada kotak prompt kosong yang sama lalu memuntahkan hasil serupa
akan lebih efisien untuk terlebih dahulu menunjukkan contoh yang bagus, lalu melalui diskusi terkait mendapatkan hasil berkualitas tinggi dengan lebih cepat
Setiap kali melihat teknologi seperti ini, saya teringat dialog Jeff Goldblum di Jurassic Park
Bos kami menunjukkan video AI buatan alat seperti ini yang kualitas penyelesaiannya buruk sambil berteriak "inilah masa depan"
tapi sepertinya tidak pernah mengajukan pertanyaan mendasar seperti "siapa sebenarnya yang menginginkan ini, dan siapa yang akan menontonnya?"
Konten AI masih punya keterbatasan yang langsung terlihat begitu dilihat
Siapa yang akan menikmati menonton aliran video yang sepenuhnya dibuat AI? Dari sudut pandang Meta, ini bagus karena mereka bisa mendapatkan konten lebih murah daripada membayar manusia,
tetapi pada kenyataannya ini tidak lebih dari 'slop' berkualitas rendah
Masalah hak cipta ditangani terlalu longgar
Sora pada dasarnya diatur untuk menggunakan IP milik pengguna dalam video AI, dan pengguna harus menolak secara eksplisit agar dikecualikan
Artikel terkait
Selain itu, orang-orang yang menjalankan proyek dengan dampak sebesar ini tampaknya minim pengalaman hidup nyata
dan hanya terobsesi pada teknologi baru yang berkilau, tanpa peduli pada pengaruh dan konsekuensinya
(Vibes dari Meta juga dalam konteks yang sama)
Isu tersebut di artikelnya disebut ditulis oleh robot, jadi saya penasaran apakah ada sumber yang lebih akurat
Di Grok, karakter berhak cipta sudah dipakai bebas selama lebih dari setahun, tetapi belum ada gugatan
Teknologi seperti ini membuat saya membayangkan kemungkinan pemberian lisensi kepada brand di masa depan
untuk membuat video iklan yang jauh lebih disesuaikan
Misalnya, akan sangat menarik jika saya bisa melihat video diri saya mengenakan pakaian itu sebelum benar-benar memesan pakaian aslinya
Jika sampai bisa dihasilkan secara real-time, bisa dibayangkan setiap kali saya melewati cermin di department store, penampilan saya otomatis berubah ke berbagai outfit
Ini zaman yang sangat mengasyikkan
Kalau sampai titik itu tercapai, rasanya kita bahkan tidak perlu lagi membeli pakaian secara fisik
Para influencer bisa puas hanya dengan mengunggah video simulasi diri mereka ke SNS, dan mempromosikannya tanpa kunjungan nyata
Tweet meme terkait
Lebih jauh lagi, kita bahkan bisa membuat dan mengunggah video palsu seolah sedang pesta dengan teman-teman tanpa benar-benar keluar
jadi pada akhirnya kita bisa makan es krim di rumah sambil tetap menampilkan kehidupan yang aktif di SNS
Saya merasa pernah melihat adegan serupa di Minority Report
Dalam film itu, penyebutan nama Tom Cruise secara langsung di iklan terasa mengesankan
Minority Report - wiki film
Ini disebut 'Virtual Try On(VTO)' dan sudah banyak digunakan untuk gambar statis
Maka wajar untuk memperkirakan bahwa VTO video juga akan segera muncul
Pada akhirnya, penggunaan paling umum model video seperti ini kemungkinan akan berfokus pada visualisasi yang dipersonalisasi, misalnya uji coba produk secara virtual
Karena pada akhirnya orang lebih suka membangun rasa kedekatan dengan manusia daripada dengan AI
Sora atau VEO juga bisa membawa perubahan besar pada produksi konten film atau TV
Penempatan furnitur AR (fitur untuk menempatkan posisi furnitur di rumah saya secara virtual lebih dulu) dulu juga disebut inovatif
tetapi kenyataannya hampir tidak ada yang memakainya
Alasan utama pembuatan gambar ChatGPT berhasil menarik lebih dari 100 juta pengguna pada minggu pertama
adalah karena orang sangat menikmati membuat foto teman, keluarga, dan hewan peliharaan mereka sendiri dengan AI
Saya menduga 'fitur cameo' juga merupakan upaya untuk sekali lagi membidik daya tarik viral seperti ini
jadi sepertinya tidak akan jadi masalah selama PETA tidak menentangnya
Hal yang paling menarik adalah
jika pengguna memasukkan klip video orang atau produk ke dalam prompt
AI membuat video yang realistis berdasarkan metadata itu
Secara teknis, ini tampak seperti efek dari pelatihan sebelumnya pada data set yang sangat maju
Dari sudut pandang pengguna, ini bisa menjadi fitur komersial yang benar-benar berguna
Namun, inovasi berbasis data seperti ini juga bisa segera dikejar Google berkat YouTube
dan kemungkinan besar mereka sudah mengoperasikan teknologi serupa secara internal
Dari posisi saya yang menginvestasikan uang hasil jerih payah, citra produk yang tidak benar-benar ada atau dimanipulasi terasa nyaris seperti penipuan
Saya menganggap review∙iklan yang didasarkan pada fantasi, bukan produk nyata, sebagai sesuatu yang bermasalah secara etis
Semua pembangunan ini pada dasarnya adalah kemajuan menuju aliran konten AI yang dipersonalisasi tanpa henti
Strukturnya dioptimalkan untuk memaksimalkan pelepasan dopamin individu
Rasanya seperti Torment Nexus yang mirip Skinner box (alat yang mendorong perilaku berulang demi kesenangan)
Untuk saat ini, struktur seperti ini belum berada dalam kondisi yang berkelanjutan dari sisi energi atau sumber daya
Salah satu prompt contoh, "pertempuran animasi intens antara seorang anak laki-laki yang memegang pedang dari cahaya biru dan roh jahat yang bentrok,"
hampir identik konsepnya dengan manga Jepang Blue Exorcist
Blue Exorcist (wiki)
Bahkan ada prompt contoh yang berbunyi "'dalam gaya animasi Studio Ghibli, seorang anak laki-laki dan seekor anak anjing mendaki gunung biru dan sebuah desa terlihat di kejauhan'"
Karakter naganya terasa seperti diambil hampir mentah dari How to Train Your Dragon
Saya penasaran apakah mereka punya kontrak dengan para pemegang hak cipta, atau justru mengincar efek promosi media lewat ancaman gugatan
Dari sisi engineering, hasilnya benar-benar mengesankan
Kualitas videonya sudah cukup tinggi untuk memancing fokus, dan efek uncanny valley (rasa ganjil) juga terasa
OpenAI hebat dalam membuat publik beradaptasi secara bertahap dengan teknologi baru seperti ini
Versi ini masih memiliki banyak batasan, tetapi arahnya terasa seperti hanya perlu satu dua generasi lagi untuk menembus ambang teknis
Misalnya, di pasar LLM Gemini 2.5 Pro adalah ambang yang sesungguhnya, dan Sora juga tampaknya akan segera mencapai titik balik seperti itu
Dari sudut pandang kreator, akan ideal jika ada fungsi untuk terlebih dahulu membuat beberapa aset (latar belakang, objek, dan sebagainya) sebagai satu set lalu menyambungkan berbagai adegan secara alami
Continuity-nya meningkat secara mengejutkan
Namun, beberapa kesalahan masih tetap mencolok
Saya penasaran bagaimana masalah storyboard yang lebih kompleks akan diselesaikan
Video itu menyembunyikan masalah continuity dengan editing cut yang sangat agresif dan perpindahan kamera yang cepat
Terlihat jelas bahwa di setiap cut semua elemen seperti duckweed, snowmobile, dan lain-lain terus berubah
Pada akhirnya hanya bagian wajah yang terlihat konsisten
Secara keseluruhan, masalah khas video AI masih tetap ada, dan hampir tidak ada adegan yang bertahan lebih dari 5 detik dalam satu lingkungan
Bahkan di adegan balapan bebek, saat Sam muncul, rumputnya sudah menjadi rumput yang sama sekali berbeda
Fakta bahwa bahkan demo ini pun penuh kesalahan
mengisyaratkan bahwa hasil pengguna biasa akan jauh lebih buruk
Di adegan menggunakan bo staff di kolam, sudut pergelangan tangannya menekuk secara tidak normal
Dalam demo bo staff di kolam, ada adegan yang jelas sekali 'terasa AI', seperti tongkat kayu yang tiba-tiba berubah menjadi bentuk busur