18 poin oleh xguru 2024-03-22 | 3 komentar | Bagikan ke WhatsApp
  • Sora didasarkan pada Diffusion Transformers (DiT) dan latent diffusion, dengan model serta dataset pelatihan yang diskalakan secara besar-besaran
  • Sora menunjukkan bahwa memperluas model video itu bernilai, dan perluasan lanjutan yang mirip dengan large language model (LLM) kemungkinan akan menjadi pendorong utama yang dengan cepat meningkatkan model
  • Perusahaan seperti Runway, Genmo, dan Pika sedang membangun antarmuka dan alur kerja yang intuitif untuk model pembuat video seperti Sora
  • Pelatihan Sora diperkirakan membutuhkan daya komputasi yang sangat besar, setara dengan 4.200~10.500 GPU Nvidia H100 selama 1 bulan
  • Untuk inferensi, Sora diperkirakan dapat menghasilkan hingga sekitar 5 menit video per jam per GPU Nvidia H100. Dibandingkan dengan LLM, inferensi model berbasis diffusion seperti Sora beberapa kali lebih mahal
  • Seiring model seperti Sora didistribusikan secara luas, komputasi inferensi akan mendominasi komputasi pelatihan, dan "titik impas" diperkirakan terjadi saat 15,3 juta~38,1 juta menit video telah dihasilkan; setelah itu, inferensi akan memerlukan komputasi lebih banyak daripada pelatihan awal. Sebagai perbandingan, jumlah video yang diunggah per hari adalah 17 juta menit (TikTok) dan 43 juta menit (YouTube)
  • Dengan mempertimbangkan porsi video buatan AI di TikTok dan YouTube, permintaan maksimum GPU Nvidia H100 untuk inferensi diperkirakan sekitar 720 ribu unit

Latar belakang

  • Sora termasuk dalam keluarga diffusion model. Diffusion model adalah pilihan populer untuk pembuatan gambar, dengan model terkenal seperti DALL-E milik OpenAI dan Stable Diffusion milik Stability AI. Belakangan ini, perusahaan seperti Runway, Genmo, dan Pika juga mengeksplorasi pembuatan video, yang sangat mungkin memanfaatkan diffusion model.
  • Diffusion model adalah salah satu jenis model machine learning generatif yang mempelajari cara menghasilkan data seperti gambar atau video dengan secara bertahap membalik proses penambahan noise acak ke data. Model-model ini memulai dari pola noise murni, lalu secara bertahap menghilangkan noise tersebut dan menyempurnakan polanya menjadi keluaran yang dapat dipahami dan detail.

Detail teknis Sora

  • OpenAI merilis laporan teknis bersamaan dengan pengumuman Sora. Laporan ini kekurangan detail, tetapi desainnya tampak sangat dipengaruhi oleh makalah riset "Scalable Diffusion Models with Transformers"

  • Para penulis makalah tersebut mengusulkan DiT, sebuah arsitektur berbasis Transformer untuk pembuatan gambar; DiT adalah singkatan dari Diffusion Transformers

  • Sora tampaknya memperluas pekerjaan ini ke pembuatan video. Dengan menggabungkan laporan teknis Sora dan makalah DiT, kita bisa mendapatkan gambaran yang cukup akurat tentang cara kerja model Sora

  • Ada tiga bagian penting dalam Sora:

    • Tidak bekerja di ruang piksel, melainkan melakukan diffusion di ruang laten (disebut latent diffusion)
    • Menggunakan arsitektur Transformer
    • Tampaknya menggunakan dataset yang sangat besar
  • Latent diffusion

    • Untuk memahami poin pertama, yaitu latent diffusion, mari pertimbangkan pembuatan gambar
      • Setiap piksel bisa dihasilkan menggunakan diffusion, tetapi ini sangat tidak efisien (misalnya, gambar 512x512 memiliki 262.144 piksel)
      • Sebagai gantinya, piksel dapat dipetakan ke representasi laten dengan tingkat kompresi tertentu, lalu diffusion dilakukan di ruang laten yang lebih ringkas ini, dan pada akhirnya didekodekan kembali dari laten ke ruang piksel
      • Pemetaan ini secara signifikan memperbaiki kompleksitas komputasi: alih-alih menjalankan proses diffusion pada 512x512 = 262.144 piksel, misalnya cukup menghasilkan 64x64 = 4.096 laten
      • Gagasan ini adalah terobosan inti dari makalah riset "High-Resolution Image Synthesis with Latent Diffusion Models" dan menjadi dasar Stable Diffusion.
    • Contoh pemetaan dari piksel ke representasi laten adalah gambar yang diambil dari laporan teknis Sora.
    • Baik DiT maupun Sora memanfaatkan pendekatan ini. Dalam kasus Sora, ada pertimbangan tambahan bahwa video memiliki dimensi waktu: video terdiri dari frame yang merupakan urutan waktu dari gambar
    • Dalam laporan teknis Sora, tahap encoding yang memetakan piksel ke ruang laten tampaknya terjadi secara spasial (artinya mengompresi lebar dan tinggi setiap frame) dan temporal (artinya mengompresi sepanjang waktu)
  • Transformer

    • Poin kedua, baik DiT maupun Sora menggunakan arsitektur Transformer standar alih-alih arsitektur U-Net yang umum digunakan
    • Hal ini penting karena para penulis makalah DiT mengamati bahwa penggunaan Transformer menghasilkan scaling yang dapat diprediksi, yang berarti ketika lebih banyak komputasi pelatihan diterapkan (melatih model lebih lama, membuat model lebih besar, atau keduanya), kinerjanya meningkat
    • Perilaku scaling ini adalah sifat penting yang dapat dikuantifikasi melalui apa yang disebut scaling law, dan sebelumnya telah dipelajari dalam konteks large language model (LLM) serta model autoregressive pada modalitas lain
    • Kemampuan untuk menerapkan skala demi memperoleh model yang lebih baik telah menjadi salah satu pendorong utama kemajuan pesat pada LLM
    • Karena sifat yang sama juga ada dalam pembuatan gambar dan video, kita dapat mengharapkan resep scaling yang sama juga akan bekerja di sini
  • Dataset

    • Unsur kunci terakhir yang dibutuhkan untuk melatih model adalah data berlabel, dan ini dianggap sebagai bahan rahasia terpenting dalam melatih model seperti Sora
    • Untuk melatih model text-to-video seperti Sora, dibutuhkan pasangan video dan deskripsi teksnya
    • OpenAI tidak banyak membahas dataset mereka, tetapi mengisyaratkan bahwa ukurannya sangat besar: "Kami terinspirasi oleh large language model yang memperoleh kemampuan umum melalui pelatihan pada data berskala internet."
    • OpenAI juga telah mengungkap metode untuk menambahkan label teks yang detail ke gambar, yang digunakan untuk mengumpulkan dataset DALLE-3
    • Gagasan umumnya adalah melatih model captioner pada subset dataset yang berlabel, lalu menggunakan model captioner tersebut untuk memberi label sisanya secara otomatis
    • Teknik yang sama tampaknya juga diterapkan pada dataset Sora

Dampak

  • Diperkirakan Sora akan membawa beberapa dampak penting. Berikut tinjauan singkat dampak-dampak tersebut
  • Awal dari kepraktisan model video
    • Kualitas video yang dapat dihasilkan Sora jelas merupakan terobosan, bukan hanya dari tingkat detail tetapi juga dari sisi konsistensi temporal (misalnya, menangani keberlangsungan objek dengan benar saat objek tertutup sementara, dan menghasilkan pantulan di air dengan akurat)
    • Kini kualitas video diyakini sudah cukup baik untuk jenis adegan tertentu yang bisa digunakan dalam aplikasi nyata
    • Sebagai contoh, Sora mungkin segera dapat menggantikan sebagian penggunaan stock video footage
    • Namun, masih ada tantangan yang tersisa:
      • Belum jelas seberapa dapat dikendalikan model Sora saat ini
      • Karena model menghasilkan piksel, mengedit video yang dihasilkan itu sulit dan memakan waktu
      • Selain itu, untuk membuat model-model ini benar-benar berguna, juga perlu dibangun antarmuka pengguna (UI) dan alur kerja yang intuitif
      • Perusahaan seperti Runway, Genmo, Pika, dan lainnya sudah bekerja pada masalah-masalah ini
  • Kemajuan pesat model video diperkirakan akan berlanjut
    • Salah satu wawasan inti dari makalah DiT adalah bahwa kualitas model meningkat secara langsung dengan tambahan komputasi, sebagaimana dibahas di atas
    • Ini mirip dengan scaling law yang diamati pada LLM
    • Karena itu, seiring model-model ini dilatih dengan komputasi yang semakin besar, kita dapat mengharapkan kemajuan tambahan yang cepat dalam kualitas model pembuat video
    • Sora dengan jelas menunjukkan bahwa resep ini memang bekerja, dan diperkirakan OpenAI serta perusahaan lain akan semakin fokus ke arah ini
  • Pembuatan data sintetis dan augmentasi data
    • Di bidang seperti robotika dan kendaraan otonom, data pada dasarnya langka: internet tidak penuh dengan video robot yang melakukan tugas atau kendaraan yang sedang mengemudi.
    • Secara umum, masalah-masalah ini ditangani dengan melatih di simulasi atau mengumpulkan data dunia nyata dalam skala besar (atau kombinasi keduanya)
    • Namun, kedua pendekatan tersebut sama-sama menghadapi masalah bahwa data simulasi sering kali tidak realistis
    • Mengumpulkan data dunia nyata dalam skala besar mahal, dan mengumpulkan cukup data untuk kejadian langka merupakan tantangan
    • Model seperti Sora bisa sangat berguna di sini. Model ini diyakini dapat digunakan untuk langsung menghasilkan data sintetis sepenuhnya
    • Sora juga dapat digunakan untuk augmentasi data dengan mengubah video yang sudah ada menjadi tampilan lain
    • Poin kedua yang dijelaskan di atas menunjukkan Sora mengubah video mobil merah yang melaju di jalan hutan menjadi lanskap rimba yang lebat
    • Dengan teknik yang sama, kita bisa membayangkan merender ulang adegan dari siang menjadi malam atau mengubah kondisi cuaca
  • Simulasi dan world model
    • Mempelajari apa yang disebut world model adalah arah riset yang menjanjikan
    • Jika cukup akurat, world model semacam ini dapat digunakan untuk melatih agen langsung di dalamnya, atau dipakai untuk perencanaan dan eksplorasi.
    • Model seperti Sora tampaknya secara implisit mempelajari simulasi dasar tentang bagaimana dunia nyata bekerja langsung dari data video
      • "Simulasi yang muncul" ini saat ini masih memiliki kekurangan, tetapi tetap menarik: ini mengisyaratkan bahwa world model semacam itu mungkin dapat dilatih dalam skala besar dari video
      • Lebih jauh lagi, Sora tampaknya mampu mensimulasikan adegan yang sangat kompleks, seperti cairan, pantulan cahaya, kain, dan gerakan rambut.
      • OpenAI memberi judul laporan teknisnya "Video generation models as world simulators", yang memperjelas bahwa mereka menganggap ini sebagai aspek terpenting dari model tersebut.
    • Baru-baru ini, DeepMind mendemonstrasikan model Genie yang menunjukkan efek serupa dengan hanya dilatih menggunakan video dari video game: model tersebut belajar cara mensimulasikan game-game ini (serta menciptakan yang baru)
      • Dalam kasus ini, model belajar cara mengondisikan pada tindakan tanpa mengamati tindakan itu secara langsung
      • Dengan kata lain, tujuannya adalah memungkinkan pembelajaran langsung di dalam simulasi semacam ini.
    • Jika keduanya digabungkan, model seperti Sora dan Genie tampaknya bisa sangat berguna untuk melatih embodied agent dalam skala besar pada tugas dunia nyata, misalnya di robotika
    • Namun ada batasannya: karena model-model ini dilatih di ruang piksel, mereka akhirnya memodelkan semua detail seperti bagaimana angin menggerakkan helai rumput, yang mungkin sama sekali tidak relevan dengan tugas yang sedang dikerjakan
    • Ruang laten memang terkompresi, tetapi karena tetap harus bisa dipetakan kembali ke piksel, banyak informasi perlu dipertahankan; karena itu, belum jelas apakah perencanaan di ruang laten ini bisa dilakukan secara efisien

Estimasi komputasi (Compute Estimates)

  • Di Factorial Funds, mereka suka meninjau jumlah komputasi yang digunakan untuk pelatihan dan inferensi. Ini berguna karena dapat memberi informasi untuk memperkirakan kebutuhan komputasi di masa depan
  • Namun, karena hampir tidak ada detail tentang ukuran model dan dataset yang digunakan untuk melatih Sora, memperkirakan angka-angka ini juga sulit
  • Karena itu, estimasi pada bagian ini sangat tidak pasti, sehingga perlu diingat saat membacanya
  • (Karena ini hanya estimasi, bagian ini dihilangkan)

3 komentar

 
soon0698 2024-03-23

Selain isinya, saya juga menambahkan beberapa TMI yang saya ketahui secara pribadi.

  • Diffusion Transformers (DiT) saat itu dipimpin oleh William Peebles, yang merupakan mahasiswa doktoral di Berkeley, dan makalah tersebut ditolak mentah-mentah oleh CVPR, konferensi computer vision paling bergengsi, dengan alasan "kurang kebaruan" (Lack of Novelty). Setelah itu dipublikasikan di ICCV, penulisnya lulus, bergabung dengan OpenAI, lalu segera memimpin proyek Sora.
  • Arsitektur DiT adalah gabungan diffusion model + arsitektur Transformer. Pada saat itu, performa unggul pemulihan gambar dengan memanfaatkan struktur U-Net dalam diffusion model sudah sangat dikenal, tetapi di sini struktur tersebut diubah dari berbasis CNN menjadi Vision Transformer dan struktur Patchify. Karena itu, fokus utama makalahnya sebagian besar dicurahkan untuk membuktikan Scaling Law melalui adopsi arsitektur ViT, sementara metode usulan yang substansial bahkan tidak sampai satu halaman penuh di naskah utama.
  • Berbeda dari perhatian publik yang ramai, orang-orang di akademia menunjukkan kekhawatiran yang cukup besar terhadap arah seperti ini yang makin banyak mendapat perhatian dan sitasi. Alasannya, jika ada lebih banyak data yang bagus, sumber daya komputasi yang sangat besar, dan terakhir arsitektur yang menjamin Scaling Law, maka seolah tidak lagi diperlukan peretasan cerdas atau penemuan baru apa pun. Jika hasil dari sekadar menambah 100 GPU selalu lebih baik daripada teknik pintar yang dirancang para peneliti, tentu itu bukan perasaan yang terlalu menyenangkan.
 
yangisu12 2024-03-22

Disebutkan bahwa baik DiT maupun Sora menggunakan arsitektur transformer vanilla alih-alih arsitektur U-Net yang umum digunakan, lalu sebenarnya peran U-Net dan transformer dalam kecerdasan buatan itu apa? Saya jadi sangat bingung TT

 
mhj5730 2024-03-22

Mereka seperti alien, ya.