Goku - Model pembuatan video berbasis Flow dari ByteDance

xguru · 2025-02-14T10:02:01+09:00

Goku adalah keluarga model baru untuk pembuatan gambar dan video yang berbasis "Rectified Flow Transformer", dengan tujuan mencapai performa kelas terdepan di industri Berbagai optimasi diterapkan untuk teknologi generasi visual berkualitas tinggi, termasuk "kurasi data, desain model, dan formulasi flow" Fitur utama Pembuatan gambar dan video yang presisi melalui kurasi data berkualitas tinggi Memperkuat interaksi antar token gambar dan video dengan memanfaatkan teknik Rectified Flow Memberikan performa unggul dalam pembuatan gambar dan video Tugas generasi yang didukung Teks → pembuatan video Gambar → pembuatan video Teks → pembuatan gambar Benchmark performa: mencatat performa tinggi pada benchmark utama 0.76 (GenEval - teks → pembuatan gambar) 83.65 (DPG-Bench - teks → pembuatan gambar) 84.85 (VBench - teks → pembuatan video) Goku-T2V mencatat skor 84.85 dalam perbandingan performa VBench dan menempati peringkat ke-2 per 7 Oktober 2024 Melampaui sejumlah model text-to-video komersial (AnimateDiff-V2, OpenSora, Gen-3, Kling, dll.)

Goku adalah keluarga model baru untuk pembuatan gambar dan video yang berbasis "Rectified Flow Transformer", dengan tujuan mencapai performa kelas terdepan di industri
Berbagai optimasi diterapkan untuk teknologi generasi visual berkualitas tinggi, termasuk "kurasi data, desain model, dan formulasi flow"
Fitur utama
- Pembuatan gambar dan video yang presisi melalui kurasi data berkualitas tinggi
- Memperkuat interaksi antar token gambar dan video dengan memanfaatkan teknik Rectified Flow
- Memberikan performa unggul dalam pembuatan gambar dan video
Tugas generasi yang didukung
- Teks → pembuatan video
- Gambar → pembuatan video
- Teks → pembuatan gambar
Benchmark performa: mencatat performa tinggi pada benchmark utama
- 0.76 (GenEval - teks → pembuatan gambar)
- 83.65 (DPG-Bench - teks → pembuatan gambar)
- 84.85 (VBench - teks → pembuatan video)
Goku-T2V mencatat skor 84.85 dalam perbandingan performa VBench dan menempati peringkat ke-2 per 7 Oktober 2024
- Melampaui sejumlah model text-to-video komersial (AnimateDiff-V2, OpenSora, Gen-3, Kling, dll.)

2 komentar

kimhj 2025-02-14

Akhir-akhir ini ByteDance tampaknya banyak sekali merilis paper teknologi terkait.. sepertinya tidak lama lagi akan diterapkan juga di TikTok.

xguru 2025-02-14

Goku+: Video Ads Foundation Models

Contoh penerapan nyata di bagian bawah sini lebih menarik.

Model ini bisa membuat avatar untuk pemasaran, atau menghasilkan klip video dari gambar produk.
Lalu melalui itu, manusia dan produk digabungkan menjadi satu sehingga bisa langsung membuat video perkenalan produk.
Jadi, video orang makan makanan, berjalan sambil memakai pakaian, berdandan, hingga keramas pun bisa dibuat dengan mudah.
Sepertinya ini adalah contoh yang dioptimalkan untuk social commerce di Tiongkok.

Goku - Model pembuatan video berbasis Flow dari ByteDance

Bacaan terkait

2 komentar