OpenAI Sora: Model AI untuk menghasilkan video dari teks diumumkan

(openai.com)

12 poin oleh GN⁺ 2024-02-16 | 6 komentar | Bagikan ke WhatsApp

Sora adalah model AI yang menciptakan adegan realistis dan imajinatif berdasarkan instruksi teks
Dapat menghasilkan video hingga durasi 1 menit sambil tetap setia pada prompt pengguna dan menjaga kualitas visual
Diperkenalkan contoh-contoh video yang dihasilkan berdasarkan berbagai prompt yang memberikan skenario terperinci
- Semua video di halaman ini dibuat langsung oleh Sora dan sama sekali tidak diedit
Saat ini Sora diberikan kepada 'red team' untuk evaluasi risiko, dan sedang menerima masukan dari seniman visual, desainer, serta pembuat film
OpenAI ingin membagikan perkembangan penelitiannya untuk menerima masukan dari pihak luar dan menunjukkan masa depan kapabilitas AI kepada publik

Kemampuan Sora

Dapat menghasilkan adegan kompleks dengan banyak karakter, gerakan tertentu, serta detail yang akurat pada subjek dan latar belakang
Memahami bukan hanya prompt pengguna, tetapi juga bagaimana sesuatu hadir di dunia fisik

Keamanan Sora

OpenAI berencana mengambil berbagai langkah keamanan sebelum mengintegrasikan Sora ke dalam produk OpenAI
Termasuk pengembangan alat untuk mendeteksi konten yang menyesatkan, serta pengembangan pengklasifikasi yang dapat menentukan apakah sebuah video dihasilkan oleh Sora

Teknologi penelitian

Sora adalah model difusi yang menghasilkan video dengan memulai dari video yang penuh noise lalu secara bertahap menghilangkan noise tersebut
Menggunakan arsitektur transformer yang mirip dengan model GPT untuk memberikan kemampuan penskalaan yang unggul

Opini GN⁺

Sora adalah teknologi AI inovatif yang menghasilkan video melalui instruksi berbasis teks, dan menawarkan kemungkinan baru bagi para profesional kreatif
Melalui langkah-langkah keamanan dan umpan balik, Sora mempelajari penggunaan di dunia nyata dan berperan penting dalam membuat sistem AI semakin aman secara bertahap
Teknologi ini tampaknya akan menjadi tonggak penting menuju pencapaian AGI (kecerdasan umum buatan) di masa depan

6 komentar

draupnir 2024-02-17

Benar-benar cuma bisa terpukau.
Akan dapat 7 triliun, ya...?

laeyoung 2024-02-16

Sekilas, sulit membedakan apakah itu video nyata atau video yang dibuat AI.

edunga1 2024-02-16

Wah... saya ingin segera mencobanya.
Jadi, model difusi itu maksudnya memakai cara yang sama seperti Stable Diffusion, ya?

dothx 2024-02-16

Pasar stock photo dan stock video sepertinya akan berat ya..

xguru 2024-02-16

Kualitas hasil generasinya luar biasa. Perkembangannya secepat ini ya?

GN⁺ 2024-02-16

Komentar Hacker News

Seorang pengguna mengungkapkan kekhawatiran tentang masa depan meski mengakui pencapaian teknisnya. Ia merasa jaring pengaman sosial masih kurang dan kita tidak semakin mendekati universal basic income (UBI). Ia juga menyatakan ketakutan terhadap satu perusahaan yang memiliki terlalu banyak kekuasaan.
Pengguna lain sangat terkesan dengan kualitas gerakan yang dihasilkan komputer. Ia mengatakan bahwa tidak seperti motion capture, mewujudkan gerakan yang terasa nyata dalam animasi komputer itu sulit, tetapi kali ini hasilnya terasa sangat realistis.
Pengguna lain menekankan pentingnya model yang menunjukkan pemahaman tentang fisika dan hubungan antarobjek, melampaui aspek gambar/video semata. Ia menilai contoh-contoh yang disebut sebagai kegagalan justru merupakan kasus penting yang menunjukkan pemahaman kuat model terhadap dunia.
Menurut The Hollywood Reporter, banyak orang di industri ini merasa takut terhadap pekerjaan mereka karena perkembangan alat AI. Sebagian mempertimbangkan untuk meninggalkan industri, dan alat AI diperkirakan akan memengaruhi lapangan kerja terutama di bidang produksi iklan.
Seorang pengguna menyebut pencapaian ini jauh melampaui model-model yang saat ini telah dirilis.
Pengguna lain menyoroti kesalahan kecil yang ditemukan dalam video Tokyo, lalu mempertanyakan apakah kesalahan semacam ini akan selalu ada dalam konten yang dihasilkan, dan apakah anak-anak yang sejak kecil terpapar konten buatan akan menjadi tidak peka terhadap kesalahan tersebut.
Seorang pengguna mengatakan bahwa model Gemini 1.5 sudah terasa usang, dan menyatakan keterkejutannya bahwa Google mengumumkannya hanya melalui blog.
Seorang programmer mengungkapkan firasat buruk terhadap perkembangan AI, dan mengatakan bahwa ini melampaui sekadar ketakutan bisa kehilangan pekerjaan. Ia menilai kualitas videonya sangat mengesankan hingga sulit dipercaya.
Seorang pengguna mengajukan pertanyaan teknis tentang cara pembuatan video, khususnya penasaran apakah model memisahkan struktur geometris adegan dan kamera.
Pengguna terakhir berpikir bahwa perkembangan teknologi akan membawa perubahan budaya, dan membuat orang ingin lebih sering menonton teater manusia, ceramah, dan konser di gedung pertunjukan. Seperti popularitas vinyl yang kembali naik, ia memperkirakan teater juga bisa kembali populer.