[Terjemahan] Road to Sora: Pengantar Riset Pendahuluan untuk Memahami Sora dari OpenAI (feat. Oxen.AI)
(discuss.pytorch.kr)- Oxen.AI, yang membuat alat dataset AI berkualitas tinggi, mengadakan ArXiv Dives setiap hari Jumat untuk membaca paper AI dan berbagi insight.
- Artikel ini dibagikan dengan menerjemahkan, atas izin, tulisan berjudul Road to Sora yang dibahas di ArXiv Dives pada awal Maret.
- Road to Sora yang diterjemahkan kali ini bertujuan membahas pengetahuan yang diperlukan untuk memahami model Sora berdasarkan dokumen teknis Sora, model pembuat gambar yang dirilis OpenAI.
Road to Sora: Riset untuk Memahami Sora dari OpenAI / "Road to Sora" Paper Reading List
oleh Greg Schoeninger, 5 Mar 2024
Tulisan ini merupakan bagian dari upaya menyusun daftar bacaan untuk klub paper Jumat kami, ArXiv Dives. Karena hingga kini belum ada paper resmi yang dirilis untuk Sora, tujuannya adalah mengikuti petunjuk yang ada dari laporan teknis Sora milik OpenAI. Dalam beberapa minggu ke depan, kami berencana meninjau beberapa paper fundamental di klub paper Jumat untuk membantu memberikan gambaran yang lebih jelas tentang apa yang terjadi di balik layar Sora.
> Tulisan ini merupakan bagian dari upaya menyusun daftar bacaan untuk klub paper Jumat kami, ArXiv Dives. Karena hingga kini belum ada paper resmi yang dirilis untuk Sora, tujuannya adalah mengikuti petunjuk yang ada dari laporan teknis Sora milik OpenAI. Dalam beberapa minggu ke depan, kami berencana meninjau beberapa paper fundamental di klub paper Jumat untuk membantu memberikan gambaran yang lebih jelas tentang apa yang terjadi di balik layar Sora.
Apa itu Sora? / What is Sora?
Sora adalah model yang menimbulkan gelombang besar di ranah AI generatif berkat kemampuannya menghasilkan video berkualitas tinggi dari prompt bahasa alami. Jika Anda belum melihat contohnya, silakan lihat video hasil generasi seekor kura-kura yang berenang di terumbu karang di bawah ini.
> Sora adalah model yang menimbulkan gelombang besar di ranah AI generatif berkat kemampuannya menghasilkan video berkualitas tinggi dari prompt bahasa alami. Jika Anda belum melihat contohnya, silakan lihat video hasil generasi seekor kura-kura yang berenang di terumbu karang di bawah ini.
Meski tim OpenAI belum merilis paper riset resmi tentang detail teknis model itu sendiri, mereka telah merilis dokumen teknis yang membahas sejumlah detail tingkat tinggi tentang teknik yang digunakan serta beberapa hasil kualitatif.
> Meski tim OpenAI belum merilis paper riset resmi tentang detail teknis model itu sendiri, mereka telah merilis dokumen teknis yang membahas sejumlah detail tingkat tinggi tentang teknik yang digunakan serta beberapa hasil kualitatif.
https://openai.com/research/video-generation-models-as-world-simulators
Gambaran Umum Arsitektur Sora / Sora Architecture Overview
Setelah membaca paper-paper di bawah ini, arsitektur Sora akan mulai terasa lebih masuk akal. Dokumen teknisnya adalah pandangan dari ketinggian, dan saya berharap setiap paper akan menyoroti aspek yang berbeda serta melengkapi gambaran keseluruhannya. Ada paper ulasan yang bagus berjudul "Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models" yang memberikan diagram tingkat tinggi dari arsitektur hasil reverse engineering.
> Setelah membaca paper-paper di bawah ini, arsitektur Sora akan mulai terasa lebih masuk akal. Dokumen teknisnya adalah pandangan dari ketinggian, dan saya berharap setiap paper akan menyoroti aspek yang berbeda serta melengkapi gambaran keseluruhannya. Ada paper ulasan yang bagus berjudul "Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models" yang memberikan diagram tingkat tinggi dari arsitektur hasil reverse engineering.
Tim OpenAI menyatakan bahwa Sora adalah sebuah "Diffusion Transformer" yang menggabungkan banyak konsep yang tercantum dalam paper-paper di atas, tetapi diterapkan pada latent spacetime patches yang dihasilkan dari video.
> Tim OpenAI menyatakan bahwa Sora adalah sebuah "Diffusion Transformer" yang menggabungkan banyak konsep yang tercantum dalam paper-paper di atas, tetapi diterapkan pada latent spacetime patches yang dihasilkan dari video.
Ini adalah gabungan antara gaya patch yang digunakan dalam paper Vision Transformer (ViT), latent space yang mirip dengan paper Latent Diffusion, tetapi digabungkan dalam gaya Diffusion Transformer. Patch tidak hanya ada pada lebar (width) dan tinggi (height) gambar, tetapi juga diperluas ke dimensi waktu pada video.
> Ini adalah gabungan antara gaya patch yang digunakan dalam paper Vision Transformer (ViT), latent space yang mirip dengan paper Latent Diffusion, tetapi digabungkan dalam gaya Diffusion Transformer. Patch tidak hanya ada pada lebar (width) dan tinggi (height) gambar, tetapi juga diperluas ke dimensi waktu pada video.
Sulit untuk mengatakan secara pasti bagaimana mereka mengumpulkan data pelatihan untuk semua ini, tetapi tampaknya ini merupakan kombinasi dari teknik-teknik dalam makalah Dall-E 3 serta penggunaan GPT-4 untuk mengembangkan deskripsi tekstual terperinci bagi setiap gambar, yang kemudian diubah menjadi video. Data pelatihan kemungkinan besar adalah resep rahasia utama di sini, sehingga detailnya dijelaskan paling sedikit dalam laporan teknis.
> It's hard to say how exactly they collected the training data for all of this, but it seems like a combination of the techniques in the Dalle-3 paper as well as using GPT-4 to elaborate on textual descriptions of images, that they then turn into videos. Training data is likely the main secret sauce here, hence has the least level of detail in the technical report.
Kasus Penggunaan / Use Cases
Teknologi pembuatan video seperti Sora memiliki banyak kasus penggunaan dan aplikasi yang menarik. Baik untuk film, pendidikan, gim, layanan kesehatan, maupun robotika, menghasilkan video realistis dari prompt bahasa alami tanpa diragukan lagi akan mengguncang banyak industri.
> There are many interesting use cases and applications for video generation technologies like Sora. Whether it be movies, education, gaming, healthcare or robotics, there is no doubt generating realistic videos from natural language prompts is going to shake up multiple industries.
Catatan di bagian bawah diagram ini juga sangat relevan bagi kami di Oxen.ai. Jika Anda belum familiar dengan Oxen.ai, kami membangun alat open source untuk membantu Anda berkolaborasi dalam data yang masuk ke dan keluar dari model machine learning serta mengevaluasinya. Kami percaya banyak orang membutuhkan visibilitas terhadap data ini, dan bahwa hal itu seharusnya menjadi upaya kolaboratif. AI menjangkau banyak bidang dan industri yang berbeda, dan semakin banyak mata yang meninjau data yang melatih dan mengevaluasi model-model ini, semakin baik hasilnya.
> The note at the bottom of this diagram rings true for us at Oxen.ai. If you are not familiar with Oxen.ai we are building open source tools to help you collaborate on and evaluate data the comes in and out of machine learning models. We believe that many people need visibility into this data, and that it should be a collaborative effort. AI is touching many different fields and industries and the more eyes on the data that trains and evaluates these models, the better.
Lihat kami di sini: https://oxen.ai
> Check us out here: https://oxen.ai
Daftar Makalah / Paper Reading List
Bagian referensi dari laporan teknis OpenAI memuat banyak tautan makalah, tetapi agak sulit untuk mengetahui mana yang harus dibaca lebih dulu atau mana yang merupakan pengetahuan latar penting. Kami telah menelaahnya dan memilih makalah yang menurut kami paling berdampak dan menarik untuk dibaca, lalu mengelompokkannya berdasarkan jenis.
> There are many papers linked in the references section of the OpenAI technical report but it is a bit hard to know which ones to read first or are important background knowledge. We've sifted through them and selected what we think are the most impactful and interesting ones to read, and organized them by type.
Makalah Latar Belakang / Background Papers
Kualitas gambar dan video yang dihasilkan terus meningkat secara konsisten sejak 2015. Kemajuan terbesar yang menarik perhatian publik umum dimulai pada 2022 dengan Midjourney, Stable Diffusion, dan Dall-E. Bagian ini memuat beberapa makalah dasar dan arsitektur model yang berulang kali dirujuk dalam literatur. Walaupun tidak semua makalah terlibat langsung dalam arsitektur Sora, semuanya merupakan konteks penting untuk memahami bagaimana state of the art telah berkembang dari waktu ke waktu.
> The quality of generated images and video have been steadily increasing since 2015. The biggest gains that caught the general public's eyes began in 2022 with Midjourney, Stable Diffusion and Dalle. This section contains some foundational papers and model architectures that are referenced over and over again in the literature. While not all papers are directly involved in the Sora architecture, they are all important context for how the state of the art has improved over time.
Banyak dari makalah di bawah ini telah kami bahas dalam ArXiv Dives sebelumnya, jadi jika Anda ingin mengejar ketertinggalan, silakan lihat semua konten di blog Oxen.ai.
https://www.oxen.ai/community/arxiv-dives
U-Net
Makalah "U-Net: Jaringan Konvolusi untuk Segmentasi Citra Biomedis (U-Net: Convolutional Networks for Biomedical Image Segmentation)" adalah contoh bagus dari sebuah makalah yang awalnya digunakan untuk tugas di satu domain tertentu (di sini, citra biomedis) lalu diterapkan ke berbagai macam use case. Yang paling menonjol, makalah ini menjadi backbone bagi banyak model diffusion seperti Stable Diffusion untuk memfasilitasi pembelajaran dalam memprediksi dan mengurangi noise di setiap langkah. Meski tidak digunakan secara langsung dalam arsitektur Sora, ini adalah pengetahuan latar yang penting untuk memahami state of the art sebelumnya.
> "U-Net: Convolutional Networks for Biomedical Image Segmentation" adalah contoh bagus dari makalah yang digunakan untuk tugas di satu domain (pencitraan biomedis) lalu diterapkan ke banyak use case berbeda. Yang paling menonjol, ini menjadi backbone bagi banyak model diffusion seperti Stable Diffusion untuk mempermudah pembelajaran dalam memprediksi dan mengurangi noise di setiap langkah. Meski tidak digunakan secara langsung dalam arsitektur Sora, ini adalah pengetahuan latar yang penting untuk memahami state of the art sebelumnya.
https://arxiv.org/abs/1505.04597
Transformer Bahasa / Language Transformers
Makalah "Attention Is All You Need" adalah makalah lain yang terbukti kuat pada tugas machine translation, tetapi pada akhirnya menjadi makalah penting bagi seluruh riset pemrosesan bahasa alami. Transformer kini menjadi backbone bagi banyak aplikasi LLM seperti ChatGPT. Transformer pada akhirnya dapat diperluas ke berbagai modalitas dan digunakan sebagai komponen dalam arsitektur Sora.
> "Attention Is All You Need" adalah makalah lain yang membuktikan dirinya pada tugas machine translation, tetapi kemudian menjadi makalah penting bagi seluruh riset natural language processing. Transformer kini menjadi backbone bagi banyak aplikasi LLM seperti ChatGPT. Transformer pada akhirnya bisa diperluas ke banyak modalitas dan digunakan sebagai komponen dalam arsitektur Sora.
https://arxiv.org/abs/1706.03762
Vision Transformer (ViT)
Makalah "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" adalah salah satu makalah pertama yang menerapkan Transformer pada pengenalan gambar, dan membuktikan bahwa model ini dapat melampaui ResNet dan jaringan saraf konvolusional lainnya jika dilatih pada dataset yang cukup besar. Makalah ini mengambil arsitektur dari makalah "Attention Is All You Need" dan membuatnya bekerja untuk tugas computer vision. Alih-alih menggunakan token teks sebagai input, ViT menggunakan patch gambar 16x16 sebagai input.
> "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" adalah salah satu makalah pertama yang menerapkan Transformer pada pengenalan gambar, membuktikan bahwa model ini dapat mengungguli ResNet dan Convolutional Neural Networks lainnya jika dilatih pada dataset yang cukup besar. Ini mengambil arsitektur dari makalah "Attention Is All You Need" dan membuatnya bekerja untuk tugas computer vision. Alih-alih inputnya berupa token teks, ViT menggunakan patch gambar 16x16 sebagai input.
https://arxiv.org/abs/2010.11929
Model Diffusion Laten / Latent Diffusion Models
"Sintesis Gambar Resolusi Tinggi dengan Model Diffusion Laten (High-Resolution Image Synthesis with Latent Diffusion Models)" adalah teknik di balik banyak model generasi gambar seperti Stable Diffusion. Makalah ini menunjukkan bagaimana generasi gambar dapat dirumuskan ulang sebagai rangkaian auto-encoder denoising dari representasi laten. Model-model ini menggunakan arsitektur U-Net yang disebutkan di atas sebagai backbone dari proses generatif. Model-model ini dapat menghasilkan gambar yang fotorealistis dengan input teks apa pun.
> "High-Resolution Image Synthesis with Latent Diffusion Models" adalah teknik di balik banyak model generasi gambar seperti Stable Diffusion. Makalah ini menunjukkan bagaimana generasi gambar dapat dirumuskan ulang sebagai rangkaian auto-encoder denoising dari representasi laten. Model-model ini menggunakan arsitektur U-Net yang dirujuk di atas sebagai backbone dari proses generatif. Model-model ini dapat menghasilkan gambar fotorealistis berdasarkan input teks apa pun.
https://arxiv.org/abs/2112.10752
CLIP
[Learning Transferable Visual Models From Natural Language Supervision](https://arxiv.org/abs/2103.00020?utm_source=pytorchkr) sering juga disebut sebagai Contrastive Language-Image Pre-training (CLIP), yaitu teknik untuk menanamkan data teks dan data gambar ke dalam ruang laten yang sama. Teknik ini membantu menghubungkan pemahaman bahasa dan pemahaman visual pada model generatif dengan memastikan bahwa kemiripan kosinus antara representasi teks dan gambar tinggi untuk pasangan teks-gambar.
"Learning Transferable Visual Models From Natural Language Supervision" often referred to as Contrastive Language-Image Pre-training (CLIP) is a technique for embedding text data and image data into the same latent space as each other. This technique helps connect the language understanding half of generative models to the visual understanding half by making sure that the cosine similarity between the text and image representations are high between text and image pairs.
https://arxiv.org/abs/2103.00020
VQ-VAE
Menurut dokumen teknis Sora, dimensi video mentah dikurangi menggunakan Vector Quantized Variational Auto Encoder (VQ-VAE). Model VAE dikenal sebagai metode pra-pelatihan tanpa supervisi yang kuat untuk mempelajari representasi laten.
According to the technical report, they reduce the dimensionality of the raw video with a Vector Quantised Variational Auto Encoder (VQ-VAE). VAEs have been shown to be a powerful unsupervised pre-training method to learn latent representations.
https://arxiv.org/abs/1711.00937
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
Dokumen teknis Sora menjelaskan bagaimana mereka menerima video dengan rasio aspek apa pun, dan bagaimana hal ini memungkinkan mereka melatih model pada kumpulan data yang jauh lebih besar. Semakin banyak data yang bisa dimasukkan ke model tanpa perlu dipotong, semakin baik hasil yang diperoleh. Makalah ini menggunakan teknik yang sama untuk gambar, sementara Sora memperluasnya ke video.
The Sora technical report talks about how they take in videos of any aspect ratio, and how this allows them to train on a much larger set of data. The more data they can feed the model without having to crop it, the better results they get. This paper uses the same technique but for images, and Sora extends it for video.
https://arxiv.org/abs/2307.06304
Makalah di bidang generasi video / Video Generation Papers
Mereka merujuk pada beberapa makalah generasi video yang menginspirasi Sora dan membawa model generatif di atas ke tingkat berikutnya dengan menerapkannya pada video.
ViViT: A Video Vision Transformer
Makalah ini menjelaskan secara rinci cara memecah video menjadi "token spatio-temporal" yang dibutuhkan untuk tugas video. Makalah ini berfokus pada klasifikasi video, tetapi tokenisasi yang sama juga dapat diterapkan pada tugas pembuatan video.
This paper goes into details about how you can chop the video into "spatio-temporal tokens" needed for video tasks. The paper focuses on video classification, but the same tokenization can be applied to generating video.
https://arxiv.org/abs/2103.15691
Imagen Video: High Definition Video Generation with Diffusion Models
Imagen adalah sistem pembuatan video berbasis teks (text-conditional video generation system) yang didasarkan pada rangkaian model difusi video. Sistem ini menggunakan konvolusi pada arah temporal dan teknik super resolution untuk menghasilkan video berkualitas tinggi dari teks.
Imagen is a text-conditional video generation system based on a cascade of video diffusion models. They use convolutions in the temporal direction and super resolution to generate high quality videos from text.
https://arxiv.org/abs/2210.02303
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
Makalah ini mengambil model difusi laten dari makalah pembuatan gambar di atas dan memperkenalkan dimensi temporal ke ruang laten. Di sini, mereka menyelaraskan ruang laten untuk menerapkan beberapa teknik menarik pada dimensi temporal, tetapi hasilnya masih belum menyamai konsistensi temporal Sora.
This paper takes the latent diffusion models from the image generation papers above and introduces a temporal dimension to the latent space. They apply some interesting techniques in the temporal dimension by aligning the latent spaces, but does not quite have the temporal consistency of Sora yet.
https://arxiv.org/abs/2304.08818
Photorealistic video generation with diffusion models
Makalah ini memperkenalkan W.A.L.T, pendekatan berbasis transformer untuk menghasilkan video realistis melalui diffusion modeling. Sepanjang yang saya tahu, ini tampaknya merupakan teknik yang paling dekat dengan Sora dalam daftar referensi, dan dirilis pada Desember 2023 oleh tim dari Google, Stanford, dan Georgia Tech.
> They introduce W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. This feels like the closest technique to Sora in the reference list as far as I can tell, and was released in December of 2023 by the teams at Google, Stanford and Georgia Tech.
https://arxiv.org/abs/2312.06662
Makalah di bidang pemahaman visual-bahasa / Vision-Language Understanding
Untuk menghasilkan video dari prompt teks, perlu dikumpulkan dataset dalam jumlah besar. Karena tidak mungkin manusia memberi label pada begitu banyak video secara manual, tampaknya digunakan teknik data sintetis yang mirip dengan yang dijelaskan dalam makalah DALL-E 3.
> In order to Generate Videos from text prompts, they need to collect a large dataset. It is not feasible to have humans label that many videos, so it seems they use some synthetic data techniques similar to those described in the DALL·E 3 paper.
DALL·E 3
Melatih sistem generasi teks-ke-video membutuhkan sejumlah besar video yang disertai caption teks yang sesuai. Teknik re-captioning yang diperkenalkan di DALL-E 3 diterapkan pada data pelatihan video Sora. Seperti DALL-E 3, model GPT juga dimanfaatkan untuk mengubah prompt pengguna yang singkat menjadi caption panjang dan detail yang kemudian dikirim ke model video.
> Training text-to-video generation systems requires a large amount of videos with corresponding text captions. They apply the re-captioning technique introduced in DALL·E 3 to videos. Similar to DALL·E 3, they also leverage GPT to turn short user prompts into longer detailed captions that are sent to the video model.
Llava
Agar model dapat mengikuti instruksi pengguna, kemungkinan besar dilakukan instruction finetuning yang serupa dengan makalah Llava. Makalah ini juga menunjukkan beberapa teknik data sintetis untuk membuat dataset instruksi berskala besar yang dapat menarik bila dikombinasikan dengan metode Dall-E di atas.
> In order for the model to be able to follow user instructions, they likely did some instruction fine-tuning similar to the Llava paper. This paper also shows some synthetic data techniques to create a large instruction dataset that could be interesting in combination with the Dalle methods above.
https://arxiv.org/abs/2304.08485
Make-A-Video & Tune-A-Video
Makalah seperti Make-A-Video dan Tune-A-Video menunjukkan bagaimana prompt engineering memanfaatkan kemampuan pemahaman bahasa alami model untuk menguraikan instruksi yang kompleks dan merendernya menjadi narasi video yang padu, hidup, dan berkualitas tinggi. Sebagai contoh, prompt pengguna yang sederhana dapat diperluas dengan kata sifat dan kata kerja agar adegan tergambar lebih kaya.
> Papers like Make-A-Video and Tune-A-Video have shown how prompt engineering leverages model’s natural language understanding ability to decode complex instructions and render them into cohesive, lively, and high-quality video narratives. For example: taking a simple user prompt and extending it with adjectives and verbs to more fully flush out the scene.
https://arxiv.org/abs/2209.14792
https://arxiv.org/abs/2212.11565
Kesimpulan / Conclusion
Semoga tulisan ini bisa menjadi titik awal untuk memahami semua komponen penting yang dapat membentuk sistem seperti Sora! Jika menurut Anda ada hal yang kami lewatkan, jangan ragu untuk memberi tahu kami lewat email di hello@oxen.ai.
> We hope this gives you a jumping off point for all the important components that could make up a system like Sora! If you think we missed anything, feel free to email us at hello@oxen.ai.
Makalah-makalah yang diperkenalkan di sini sama sekali bukan bacaan ringan. Karena itulah setiap hari Jumat kami membahas satu makalah pada satu waktu, melambat, dan menguraikan topiknya dengan bahasa sederhana agar siapa pun bisa memahaminya. Kami percaya siapa pun dapat berkontribusi dalam membangun sistem AI, dan semakin Anda memahami dasar-dasarnya, semakin banyak pola yang akan Anda temukan, serta semakin baik produk yang akan Anda bangun.
> It is by no means a light set of reading. This is why on Fridays we take one paper at a time, slow down, and break down the topics in plain speak so anyone can understand. We believe anyone can contribute to building AI systems, and the more you understand the fundamentals, the more patterns you will spot, and better products you will build.
Ikuti perjalanan belajar ini bersama kami, baik dengan mendaftar ke ArXiv Dives maupun cukup bergabung dengan komunitas Discord Oxen.ai.
> Join us on a learning journey either by signing up for ArXiv Dives or simply joining the Oxen.ai Discord community.
https://discord.com/invite/s3tBEn7Ptg
Teks asli
https://www.oxen.ai/blog/road-to-sora-reading-list
⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh :pytorch:Komunitas Pengguna PyTorch Korea:kr: ini bermanfaat bagi Anda? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan tulisan-tulisan utama melalui email:love_letter:! (Default-nya mingguan, tetapi bisa diubah ke harian.)
1 komentar
OpenAI's Sora: