Seedance 2.0 resmi dirilis

Model generasi video multimodal generasi berikutnya yang diperkenalkan oleh tim ByteDance Seed, dengan dukungan terpadu untuk input teks, gambar, audio, dan video
Akurasi fisika dan realisme ditingkatkan, sehingga menghasilkan stabilitas dan konsistensi tinggi bahkan pada interaksi karakter yang kompleks dan adegan gerak
Dapat menerima hingga 9 gambar, 3 video, dan 3 audio sekaligus untuk mencerminkan komposisi, gerakan, efek khusus, dan suara, serta memungkinkan kontrol presisi melalui fitur pengeditan dan perpanjangan video
Mendukung output multi-kamera berkualitas tinggi selama 15 detik dan audio stereo, sehingga sangat meningkatkan efisiensi produksi konten industri untuk film, iklan, game, dan lainnya
Dalam evaluasi menyeluruh, model ini mencatat kualitas generasi dan kepatuhan terhadap prompt di tingkat teratas industri, dengan rencana peningkatan lebih lanjut pada stabilitas detail dan konsistensi multi-karakter

Gambaran umum Seedance 2.0

Seedance 2.0, yang diperkenalkan pada 12 Februari 2026, adalah model generasi audio-video multimodal terpadu dari ByteDance
- Memproses empat jenis input secara bersamaan: teks, gambar, audio, dan video
- Dibandingkan versi 1.5 sebelumnya, kualitas generasi, akurasi fisika, realisme, dan kemampuan kontrol semuanya meningkat
Ditujukan untuk produksi video industri, dengan dukungan durasi video 15 detik, multi-kamera, dan audio stereo
Saat ini dapat dicoba di platform seperti Jimeng AI dan Doubao(豆包)

Peningkatan stabilitas untuk gerakan dan interaksi kompleks
- Mereproduksi gerakan banyak karakter dan aturan fisika secara alami
- Sebagai contoh, pada adegan figure skating dua orang, model ini mewujudkan lompatan, putaran, dan pendaratan secara realistis
Perluasan input multimodal
- Menerima campuran hingga 9 gambar, 3 video, 3 audio, dan perintah bahasa alami
- Menghasilkan output dengan mencerminkan komposisi, gerakan, pergerakan kamera, efek khusus, dan elemen suara dari materi masukan
Kontrol presisi dan fitur pengeditan
- Konsistensi terhadap prompt ditingkatkan, dan skrip kompleks juga dapat direproduksi dengan akurat
- Fitur perpanjangan video dan pengeditan sebagian memungkinkan modifikasi adegan, karakter, dan gerakan
Generasi audio berkualitas tinggi
- Menghasilkan musik latar, efek suara, dan narasi secara bersamaan dalam stereo dua kanal
- Mewujudkan tekstur audio yang detail dan sinkronisasi visual pada adegan seperti ASMR dan wuxia
Penerapan luas di berbagai industri
- Cocok untuk berbagai lingkungan produksi seperti iklan, film, game, dan video narasi
- Berbasis AI untuk mengurangi biaya efek khusus dan pengambilan gambar serta mempersingkat waktu produksi

Kualitas generasi video
- Berada di level terdepan industri dalam stabilitas gerakan, kepatuhan terhadap prompt, dan penyelesaian estetika
- Mengekspresikan gerakan kompleks, ekspresi wajah, dan penyutradaraan kamera dengan presisi
- Beberapa aspek seperti stabilitas detail dan dinamika visual masih perlu ditingkatkan
Kualitas generasi audio
- Lapisan suara stereo dan audio yang sesuai adegan ditingkatkan
- Kesesuaian visual antara dialog, musik, dan efek suara diperkuat
- Sinkronisasi gerakan bibir banyak karakter dan distorsi suara masih memiliki beberapa keterbatasan
Generasi referensi multimodal
- Memahami berbagai kombinasi input dan mencerminkannya secara akurat
- Menjaga konsistensi dan realisme tinggi dalam pengeditan dan perpanjangan
- Konsistensi multi-karakter dan presisi reproduksi teks masih memerlukan peningkatan lebih lanjut

Seedance 2.0 berkembang dari "generasi sinkron suara-gambar" menjadi "generasi multimodal terpadu"
Mengatasi masalah kepatuhan pada hukum fisika dan konsistensi jangka panjang, sekaligus memperluas kebebasan kreator
Ke depan, melalui stabilisasi kualitas yang lebih detail dan penyelarasan berbasis umpan balik manusia, model ini diharapkan berkembang menjadi alat produksi video AI yang lebih efisien dan kreatif