10 poin oleh clumsypupil 2025-10-01 | 2 komentar | Bagikan ke WhatsApp

🔑 Sorotan Utama
• Simulasi fisika yang lebih realistis
• Jika model sebelumnya menampilkan keberhasilan dengan “memindahkan” objek secara instan, Sora 2 kini juga mereproduksi kegagalan fisik dan pantulan balik yang nyata.
• Memberikan hasil yang lebih mendekati hukum fisika, seperti bola basket yang mengenai ring lalu memantul keluar.
• Kontrol & konsistensi yang lebih canggih
• Dapat mengikuti instruksi kompleks dengan akurat (beberapa shot, transisi adegan, mempertahankan status).
• Menjaga world state karakter/objek di antara adegan.
• Keberagaman gaya
• Mampu menghasilkan video berkualitas tinggi dalam berbagai gaya seperti realisme, sinematik, dan animasi.
• Mendukung pembuatan audio yang tersinkronisasi hingga musik latar, efek suara, dan dialog.
• Fitur “Upload yourself” (Cameos)
• Pengguna dapat mengunggah video dan audio pendek → model dapat menyisipkan orang tersebut ke adegan apa pun.
• Mencerminkan penampilan + suara sekaligus.
• Kontrol tetap ada pada pengguna, dengan izin akses dan penghapusan yang tersedia.
• Peluncuran aplikasi sosial ‘Sora’ (iOS)
• Jaringan sosial baru yang berpusat pada fitur pembuatan/remix/berbagi.
• Dimulai berbasis undangan, lebih dulu diluncurkan di Amerika Serikat dan Kanada.
• Dasar gratis + batas pemakaian tertentu, model Pro/generasi tambahan direncanakan berbayar.
• Keamanan dan peluncuran yang bertanggung jawab
• Algoritma feed: berfokus pada “mendorong kreasi” alih-alih optimasi waktu habis pakai.
• Perlindungan remaja: membatasi jumlah paparan di feed, menyediakan kontrol orang tua.
• Hak cipta/persetujuan: pengguna Cameo dijamin hak akses/penghapusan.
• Memperkuat moderasi manusia untuk menangani perundungan/penyalahgunaan.
• Konteks teknis
• Jika Sora 1 adalah “GPT-1 for video”, maka Sora 2 adalah “GPT-3.5 moment”.
• Pre-training dan post-training pada data video yang lebih besar → selangkah lebih dekat ke model simulasi dunia.
• Rencana ke depan
• Juga dapat diakses di sora.com.
• Sora 2 Pro untuk pengguna Pro akan segera tersedia.
• Ada rencana untuk membuka API.
• Sora 1 Turbo yang lama juga akan tetap dapat digunakan.

📝 TL;DR
• Sora 2 = model pembuatan video dan audio yang secara fisik lebih presisi
• Dapat menyisipkan cameo orang/objek → dinikmati lewat aplikasi sosial Sora
• Platform berfokus pada sosial+kreasi → mendorong produksi konten alih-alih konsumsi waktu
• Peluncuran awal: iOS di Amerika Serikat & Kanada → akan diperluas ke web/Pro/API

2 komentar

 
colus001 2025-10-01

Kalau semakin banyak video seperti ini dibuat, mungkin justru orang-orang bisa jadi menjauh dari kecanduan shorts. Jika shorts tentang naik supercar bisa dibuat juga dengan wajah saya, seberapa berharga lagi shorts supercar nantinya?

 
GN⁺ 2025-10-01
Komentar Hacker News
  • OpenAI tampaknya mencoba menjadikan Sora sebagai jejaring sosial, semacam versi AI dari TikTok (AITok)
    Aplikasi web-nya berfokus pada struktur yang berpusat pada konsumsi seperti feed, suka∙komentar pada postingan, profil pengguna, dan sebagainya
    Pembuatan video hanyalah elemen tambahan; video yang dihasilkan sangat pendek dan pengaturannya juga sederhana (hanya bisa memilih horizontal/vertikal)
    Video yang panjang atau berfokus pada cerita, fitur pengeditan lanjutan, dan sebagainya bahkan tidak disebutkan atau dicoba, dan ada banyak keterbatasan fungsi dibandingkan platform lain seperti Google Flow
    Mereka melampirkan video uji akurasi fisika, tetapi Veo juga tidak mampu bekerja dengan baik pada prompt tersebut
    Selain itu, menarik juga karena ada video yang cukup mengesankan sekaligus video yang kasar
    Contoh fisika Sora 1
    Contoh fisika Sora 2
    Contoh Veo 1
    Contoh Veo 2

    • Secara pribadi saya menyukai teknologi inovatif dan AI, tetapi saya tidak yakin apakah "TikTok but AI" adalah upaya yang diinginkan secara sosial
      Saya penasaran apakah ada dampak positif yang jelas yang bisa diperoleh dari ini

    • Kecuali efisiensi daya untuk pembuatan video meningkat secara dramatis, atau biaya energi menjadi nyaris nol
      saya rasa kecil kemungkinan layanan konsumsi video real-time berskala besar setingkat TikTok bisa berkelanjutan dari sisi profitabilitas
      Untuk saat ini, video yang benar-benar diunggah manusia jauh lebih hemat daya dan biaya

    • Strategi OpenAI untuk membesarkan Sora sebagai jejaring sosial sebenarnya adalah pendekatan yang sudah diterapkan Midjourney pada gambar
      Midjourney Explore - Videos
      Banyak orang menikmati gaya gambar khas Midjourney, dan modelnya belajar melalui rating dan interaksi
      Dalam pembuatan gambar, tingkat 'estetika' juga lebih mudah ditangani

    • Meta juga baru-baru ini melakukan percobaan serupa
      Meta mengumumkan Vibes AI Video

    • Memperkuat fitur feed yang berpusat pada konsumsi jelas merupakan salah satu arah
      Alasan lainnya adalah, dibanding banyak pengguna sama-sama menghabiskan sumber daya pada kotak prompt kosong yang sama lalu memuntahkan hasil serupa
      akan lebih efisien untuk terlebih dahulu menunjukkan contoh yang bagus, lalu melalui diskusi terkait mendapatkan hasil berkualitas tinggi dengan lebih cepat

  • Setiap kali melihat teknologi seperti ini, saya teringat dialog Jeff Goldblum di Jurassic Park
    Bos kami menunjukkan video AI buatan alat seperti ini yang kualitas penyelesaiannya buruk sambil berteriak "inilah masa depan"
    tapi sepertinya tidak pernah mengajukan pertanyaan mendasar seperti "siapa sebenarnya yang menginginkan ini, dan siapa yang akan menontonnya?"
    Konten AI masih punya keterbatasan yang langsung terlihat begitu dilihat

    • Saya juga punya pikiran serupa saat melihat aplikasi Vibes milik Meta
      Siapa yang akan menikmati menonton aliran video yang sepenuhnya dibuat AI? Dari sudut pandang Meta, ini bagus karena mereka bisa mendapatkan konten lebih murah daripada membayar manusia,
      tetapi pada kenyataannya ini tidak lebih dari 'slop' berkualitas rendah
  • Masalah hak cipta ditangani terlalu longgar
    Sora pada dasarnya diatur untuk menggunakan IP milik pengguna dalam video AI, dan pengguna harus menolak secara eksplisit agar dikecualikan
    Artikel terkait
    Selain itu, orang-orang yang menjalankan proyek dengan dampak sebesar ini tampaknya minim pengalaman hidup nyata
    dan hanya terobsesi pada teknologi baru yang berkilau, tanpa peduli pada pengaruh dan konsekuensinya
    (Vibes dari Meta juga dalam konteks yang sama)

    • Isu tersebut di artikelnya disebut ditulis oleh robot, jadi saya penasaran apakah ada sumber yang lebih akurat

    • Di Grok, karakter berhak cipta sudah dipakai bebas selama lebih dari setahun, tetapi belum ada gugatan

  • Teknologi seperti ini membuat saya membayangkan kemungkinan pemberian lisensi kepada brand di masa depan
    untuk membuat video iklan yang jauh lebih disesuaikan
    Misalnya, akan sangat menarik jika saya bisa melihat video diri saya mengenakan pakaian itu sebelum benar-benar memesan pakaian aslinya
    Jika sampai bisa dihasilkan secara real-time, bisa dibayangkan setiap kali saya melewati cermin di department store, penampilan saya otomatis berubah ke berbagai outfit
    Ini zaman yang sangat mengasyikkan

    • Kalau sampai titik itu tercapai, rasanya kita bahkan tidak perlu lagi membeli pakaian secara fisik
      Para influencer bisa puas hanya dengan mengunggah video simulasi diri mereka ke SNS, dan mempromosikannya tanpa kunjungan nyata
      Tweet meme terkait
      Lebih jauh lagi, kita bahkan bisa membuat dan mengunggah video palsu seolah sedang pesta dengan teman-teman tanpa benar-benar keluar
      jadi pada akhirnya kita bisa makan es krim di rumah sambil tetap menampilkan kehidupan yang aktif di SNS

    • Saya merasa pernah melihat adegan serupa di Minority Report
      Dalam film itu, penyebutan nama Tom Cruise secara langsung di iklan terasa mengesankan
      Minority Report - wiki film

    • Ini disebut 'Virtual Try On(VTO)' dan sudah banyak digunakan untuk gambar statis
      Maka wajar untuk memperkirakan bahwa VTO video juga akan segera muncul

    • Pada akhirnya, penggunaan paling umum model video seperti ini kemungkinan akan berfokus pada visualisasi yang dipersonalisasi, misalnya uji coba produk secara virtual
      Karena pada akhirnya orang lebih suka membangun rasa kedekatan dengan manusia daripada dengan AI
      Sora atau VEO juga bisa membawa perubahan besar pada produksi konten film atau TV

    • Penempatan furnitur AR (fitur untuk menempatkan posisi furnitur di rumah saya secara virtual lebih dulu) dulu juga disebut inovatif
      tetapi kenyataannya hampir tidak ada yang memakainya

  • Alasan utama pembuatan gambar ChatGPT berhasil menarik lebih dari 100 juta pengguna pada minggu pertama
    adalah karena orang sangat menikmati membuat foto teman, keluarga, dan hewan peliharaan mereka sendiri dengan AI
    Saya menduga 'fitur cameo' juga merupakan upaya untuk sekali lagi membidik daya tarik viral seperti ini

    • Untungnya, hewan peliharaan tidak memerlukan persetujuan khusus untuk digunakan dalam video AI
      jadi sepertinya tidak akan jadi masalah selama PETA tidak menentangnya
  • Hal yang paling menarik adalah
    jika pengguna memasukkan klip video orang atau produk ke dalam prompt
    AI membuat video yang realistis berdasarkan metadata itu
    Secara teknis, ini tampak seperti efek dari pelatihan sebelumnya pada data set yang sangat maju
    Dari sudut pandang pengguna, ini bisa menjadi fitur komersial yang benar-benar berguna
    Namun, inovasi berbasis data seperti ini juga bisa segera dikejar Google berkat YouTube
    dan kemungkinan besar mereka sudah mengoperasikan teknologi serupa secara internal

    • Saya sangat tidak ingin AI disisipkan ke dalam video produk
      Dari posisi saya yang menginvestasikan uang hasil jerih payah, citra produk yang tidak benar-benar ada atau dimanipulasi terasa nyaris seperti penipuan
      Saya menganggap review∙iklan yang didasarkan pada fantasi, bukan produk nyata, sebagai sesuatu yang bermasalah secara etis
  • Semua pembangunan ini pada dasarnya adalah kemajuan menuju aliran konten AI yang dipersonalisasi tanpa henti
    Strukturnya dioptimalkan untuk memaksimalkan pelepasan dopamin individu

    • Rasanya seperti Torment Nexus yang mirip Skinner box (alat yang mendorong perilaku berulang demi kesenangan)

    • Untuk saat ini, struktur seperti ini belum berada dalam kondisi yang berkelanjutan dari sisi energi atau sumber daya

  • Salah satu prompt contoh, "pertempuran animasi intens antara seorang anak laki-laki yang memegang pedang dari cahaya biru dan roh jahat yang bentrok,"
    hampir identik konsepnya dengan manga Jepang Blue Exorcist
    Blue Exorcist (wiki)

    • Bahkan ada prompt contoh yang berbunyi "'dalam gaya animasi Studio Ghibli, seorang anak laki-laki dan seekor anak anjing mendaki gunung biru dan sebuah desa terlihat di kejauhan'"

    • Karakter naganya terasa seperti diambil hampir mentah dari How to Train Your Dragon
      Saya penasaran apakah mereka punya kontrak dengan para pemegang hak cipta, atau justru mengincar efek promosi media lewat ancaman gugatan

  • Dari sisi engineering, hasilnya benar-benar mengesankan
    Kualitas videonya sudah cukup tinggi untuk memancing fokus, dan efek uncanny valley (rasa ganjil) juga terasa
    OpenAI hebat dalam membuat publik beradaptasi secara bertahap dengan teknologi baru seperti ini
    Versi ini masih memiliki banyak batasan, tetapi arahnya terasa seperti hanya perlu satu dua generasi lagi untuk menembus ambang teknis
    Misalnya, di pasar LLM Gemini 2.5 Pro adalah ambang yang sesungguhnya, dan Sora juga tampaknya akan segera mencapai titik balik seperti itu
    Dari sudut pandang kreator, akan ideal jika ada fungsi untuk terlebih dahulu membuat beberapa aset (latar belakang, objek, dan sebagainya) sebagai satu set lalu menyambungkan berbagai adegan secara alami

  • Continuity-nya meningkat secara mengejutkan
    Namun, beberapa kesalahan masih tetap mencolok

    1. 0:23 - pemain polo dengan mantel merah memakai sarung tangan, tetapi di adegan berikutnya tidak memakainya
    2. 1:05 - naga terbang menyusuri tebing, tetapi di close-up arahnya menjadi terbalik, pakaian tokohnya juga berubah
    3. 1:45 - di adegan balapan bebek, bebeknya tidak membelok dengan benar dan justru mengarah ke dinding
      Saya penasaran bagaimana masalah storyboard yang lebih kompleks akan diselesaikan
    • Video itu menyembunyikan masalah continuity dengan editing cut yang sangat agresif dan perpindahan kamera yang cepat
      Terlihat jelas bahwa di setiap cut semua elemen seperti duckweed, snowmobile, dan lain-lain terus berubah
      Pada akhirnya hanya bagian wajah yang terlihat konsisten
      Secara keseluruhan, masalah khas video AI masih tetap ada, dan hampir tidak ada adegan yang bertahan lebih dari 5 detik dalam satu lingkungan

    • Bahkan di adegan balapan bebek, saat Sam muncul, rumputnya sudah menjadi rumput yang sama sekali berbeda

    • Fakta bahwa bahkan demo ini pun penuh kesalahan
      mengisyaratkan bahwa hasil pengguna biasa akan jauh lebih buruk

    • Di adegan menggunakan bo staff di kolam, sudut pergelangan tangannya menekuk secara tidak normal

    • Dalam demo bo staff di kolam, ada adegan yang jelas sekali 'terasa AI', seperti tongkat kayu yang tiba-tiba berubah menjadi bentuk busur