Seedance 1.0 - model generasi video multi-shot dari ByteDance

(seed.bytedance.com)

4 poin oleh GN⁺ 2025-06-14 | 1 komentar | Bagikan ke WhatsApp

Model generasi video multi-shot berbasis teks dan gambar, dengan kinerja yang lebih akurat dan fleksibel dibanding model sebelumnya dalam memahami makna dan menafsirkan prompt
Selain resolusi tinggi 1080p, model ini menghasilkan transisi adegan yang halus, detail yang kaya, dan nuansa sinematik
Peningkatan performa secara keseluruhan melalui fine-tuning yang mendetail dan mekanisme reward RLHF yang dioptimalkan untuk video
Berdasarkan deskripsi teks atau gambar, model ini dapat menghasilkan konten visual yang dinamis dan imersif yang memenuhi kebutuhan yang diminta
Dengan arsitektur yang efisien dan paradigma pelatihan baru, model ini mendukung baik generasi multi-shot maupun tugas teks-ke-video/gambar-ke-video

Pengenalan Seedance 1.0

Baru-baru ini, berkat lompatan besar pada model difusi, teknologi generasi video berkembang sangat cepat
Namun, sebagian besar model yang ada masih kesulitan menyeimbangkan antara kepatuhan terhadap instruksi (prompt), kealamian gerakan, dan kualitas visual
Seedance 1.0 adalah model berbasis generasi video yang menerapkan peningkatan teknis utama berikut
- (i) Pengumpulan data multisumber dengan tambahan caption video yang presisi, memungkinkan pembelajaran yang komprehensif di berbagai skenario
- (ii) Arsitektur dan paradigma pelatihan yang efisien, mendukung secara bersamaan generasi multi-shot serta tugas teks→video dan gambar→video
- (iii) Post-processing yang dioptimalkan secara mendetail: supervised fine-tuning yang cermat, RLHF khusus video, dan mekanisme reward multidimensi untuk meningkatkan performa keseluruhan secara signifikan
- (iv) Akselerasi model: peningkatan kecepatan inferensi 10x melalui distilasi multi-tahap dan optimasi tingkat sistem
Mampu menghasilkan video 1080p berdurasi 5 detik hanya dalam 41,4 detik dengan GPU NVIDIA-L20
Dibandingkan model generasi video terbaru, model ini unggul dalam fleksibilitas spasio-temporal, stabilitas struktural, kepatuhan instruksi dalam situasi kompleks dan multi-kondisi, serta konsistensi multi-shot dan storytelling

1 komentar

GN⁺ 2025-06-14

Komentar Hacker News

Ada harapan akan masa depan ketika fitur-fitur seperti ini suatu hari terasa terlalu biasa dan membosankan
- Membayangkan level di mana dari ponsel sendiri, hanya untuk seru-seruan di grup chat dengan teman, kita bisa langsung membuat animasi full voice 24 episode
- Bahkan sekarang pun sudah bisa melakukan begitu banyak hal sampai sulit dipercaya, dan aneh juga membayangkan bahwa sebentar lagi tak ada yang akan peduli lagi
- Menunjukkan bahwa seberapa pun sederhananya sebuah seri 24 episode dibuat hanya dengan memasukkan prompt, pada akhirnya tak akan ada yang tertarik
  - Ada pemikiran bahwa AI bukan meningkatkan nilai konten, melainkan menghapus kelangkaan sehingga maknanya ikut lenyap
  - Juga memberi analogi soal kesan yang terasa seperti keluar secara mekanis, seperti Tea. Earl Grey. Hot.
- Jika pembuatan konten jadi semudah ini, muncul pertanyaan siapa yang masih mau menghabiskan waktu lama menonton video
  - Dugaan bahwa pada akhirnya semua orang akan sibuk menikmati konten generatif versinya masing-masing
- Saya sendiri juga sangat menantikan teknologi ini
  - Misalnya ada antusiasme untuk mencoba membuat sendiri film seperti Shadowrun
- Jumlah konten yang dibuat per bulan diperkirakan akan melampaui total seluruh konten yang pernah dihasilkan sepanjang sejarah manusia sampai sekarang
  - Ada harapan bahwa alih-alih hanya dijejali media arus utama seperti Disney, Marvel, dan Star Wars, orang bisa menikmati media long-tail yang benar-benar sesuai minat masing-masing
  - Jika tertarik pada Mesir dan Atlantis, orang bahkan bisa membayangkan dunia tempat kita langsung menonton seri steampunk tentang dua peradaban itu bertarung, dengan nuansa serius seperti The Wire
  - Era ketika ide yang sebelumnya mustahil diproduksi pun bisa diwujudkan diperkirakan akan datang
  - Kreator hebat akan bermunculan, dan kini berbagai kreator bisa menonjol seperti halnya musik indie, komik indie, dan game indie
  - Masalah yang sesungguhnya nanti adalah "discoverability"
  - Pada akhirnya ditekankan bahwa struktur industri lama, di mana orang harus masuk lewat jalur titipan ke sekitar 500 slot terbatas per tahun, akan runtuh, dan banyak talenta dengan visinya sendiri bisa mencoba hal-hal besar
  - Model seperti VivziePop(wiki Vivienne Medrano) dan PsychicPebbles(wiki Zach Hadel), yang berawal dari YouTube lalu tumbuh menjadi IP besar, diperkirakan akan menjadi standar masa depan
  - Diperkirakan inovasi di dunia kreatif akan meningkat bukan sekadar 2~10 kali, melainkan mendekati 1000 kali
  - Selama ini kebanyakan film/drama tidak sesuai selera saya sehingga saya tidak menyukainya, tetapi saya selalu menyukai media sebagai medium
  - Kini ada antusiasme besar terhadap dunia di mana kita bisa bertemu konten yang benar-benar pas dengan selera dan minat kita sendiri
Di masa depan, diperkirakan bentuknya akan seperti algoritma TikTok: saat saya menonton, sistem langsung memahami selera saya dan membuat video baru setiap saat sesuai itu
- Setiap kali pengguna scroll, sistem akan mempelajari apa yang disukai lalu otomatis menghasilkan lebih banyak video untuk ditampilkan
- Jika konteks yang cukup dimasukkan ke model, konten yang memancing respons orang itu akan begitu memikat hingga memiliki daya candu yang membuat mata nyaris tak bisa lepas dari layar
  - Ini bayangan yang menyeramkan, tapi juga terasa tak terelakkan dalam jangka panjang
- Sayangnya, ada kekhawatiran bahwa alih-alih sekadar mengikuti selera pengguna, sistem akan mencoba memanipulasi selera itu sendiri demi memaksimalkan keterlibatan
- Ada juga pendapat bahwa arah teknologi seperti ini sebenarnya jauh dari alasan orang memakai media sosial
  - Dicontohkan bahwa ChatGPT pun bisa terus-menerus menghasilkan komentar, tetapi pada akhirnya kita tetap datang ke Hacker News di sini
- Nantinya diperkirakan juga akan muncul konsep "live mode", yang membuat video secara instan dan real-time menyesuaikan suara pengguna
  - Rasanya fitur seperti ini juga bisa masuk ke Netflix
- Muncul pertanyaan apakah sistem juga akan belajar bahwa kita membenci iklan dan benar-benar mencerminkannya dengan baik
Di antara video sampel, ada cukup banyak adegan yang mengesankan, tetapi di beberapa bagian gerakannya sering terlihat tidak alami
- Seolah data latihnya berfokus pada bagian TikTok yang paling berlebihan, karena tampak punya ciri tidak mampu mempertahankan satu adegan lebih dari 5 detik
- Penilaiannya, adegan sulit justru ditangani dengan baik, tetapi kesalahan malah sering muncul pada bagian yang terlihat sederhana
  - Pada piano pembuka atau kamera yang digunakan fotografer tertulis AI text, tangan lelaki tua di kafe menembus baret, dan gadis yang menoleh di tepi pantai memutar kepalanya seperti burung hantu
  - Dalam adegan anak laki-laki bersepeda di kota Eropa, akhirnya ditutup dengan sosok terenkripsi di alun-alun yang menaiki sepeda roda satu dan berdiri di bawah pohon
- ByteDance ternyata sudah beberapa minggu menguji model ini secara internal di Model Arena dengan nama "Unicorn"
  - Skornya sudah lebih tinggi daripada Google Veo 3
  - ArtificialAnalysis: langsung ke peringkat Model Arena
Ada prediksi bahwa 5 tahun lagi semua konten bisa dihasilkan secara real-time
- Jika saya mengatakan sesuatu, sistem langsung merespons dengan video berdurasi 5 detik
- Video bukan lagi "aset tetap", melainkan respons "ephemeral" yang dibuat saat itu juga lalu menghilang
- Video tidak lagi menjadi file pasif yang diunggah, melainkan output dari aliran data
- UI masa depan yang menggantikan swipe kemungkinan besar adalah prompt suara
- Yang dilakukan Seedance bukan eksperimen format baru, melainkan eksperimen sistem konten yang dihasilkan saat runtime
- Di backend, model infra dikompresi dengan comet, dan LLM disetel agar bisa berjalan lebih murah dan lebih cepat
- Jika kombinasi ini terwujud, penyediaan pembuatan konten dalam skala besar akan menjadi mungkin tanpa batch besar atau cache
- Jika ini benar-benar mapan, feed tidak lagi berupa scroll, melainkan loop render
- Semua ini dinilai bukan lagi sekadar "layanan media", melainkan sistem hosting model AI berlatensi rendah yang memakai bentuk luar platform video
Kualitas videonya luar biasa, tetapi muncul pertanyaan: mana suaranya?
- Disebutkan bahwa VEO3 mungkin bagus dalam membuat video, tetapi tingkat kematangan di sisi audio membuat perbedaan yang sangat besar
- Saya berada di posisi yang menangani solusi AI di perusahaan besar streaming video
  - Masalah VEO3 adalah konsistensinya antarprompt rendah
  - Misalnya, walau gambar referensi karakter diunggah, jika membuat "pengantin wanita tua membungkuk" dan "pengantin wanita tua memungut koin" secara terpisah, tokoh yang muncul selalu terlihat berbeda
  - Memang VEO3 menyediakan fungsi image-to-video, tetapi untuk membuat adegan nyata masih sangat kurang
  - Seiring waktu tentu akan membaik, tetapi pada tahap sekarang saya pribadi menyukai bahwa Seedance berfokus pada konsistensi antarshot
  - Ada harapan bahwa ini juga memberi tekanan pada VEO3 agar fitur itu cepat ditingkatkan
Muncul pertanyaan mengapa semua video contoh menampilkan lingkaran besar
Muncul pertanyaan di mana Seedance bisa digunakan
- Seedance 1.0 dijadwalkan terintegrasi ke berbagai platform seperti Doubao dan Jimeng mulai Juni 2025
- Rasanya fitur ini akan segera langsung masuk ke TikTok
  - Disebutkan bahwa akan terjadi banjir besar konten generatif di platform TikTok itu sendiri, dan platform akan mencari cara untuk memonetisasi fenomena semua orang ingin menjadi kreator
  - Ada prediksi bahwa kebijakan platform akan berubah dari "konten bisa diunggah gratis" menjadi "harus diunggah lewat gerbang AI dan biayanya juga harus dibayar"
Ada yang mengaku merasa mual atau pusing saat menonton video dengan banyak gerakan
- Pengalaman serupa juga ada saat Sora pertama kali diperkenalkan, tetapi di Seedance sedikit berkurang
- Dalam demo Veo 3 gejala ini tidak muncul, jadi ia bertanya apakah orang lain juga merasakan hal serupa pada sampel Seedance yang penuh gerakan
Muncul rasa penasaran apakah realisme video buatan AI sudah mendekati level film animasi CGI yang ada sekarang
- Diperkirakan para ahli tentu bisa langsung menunjuk cacat yang jelas pada hasil saat ini
- Namun ada harapan bahwa ke depan hanya bagian tertentu saja yang bisa diperbaiki halus lewat prompt
- Juga ada rasa ingin tahu berapa besar sumber daya komputasi/biaya yang benar-benar dibutuhkan dibandingkan biaya CGI Hollywood beranggaran besar per detik
- Belakangan ini bahkan CGI Hollywood umum (nonanimasi) pun sering kualitasnya rendah, jadi ekspektasinya tidak terlalu tinggi
  - Proses menerapkan/mengelola perubahan pada hasil CGI (change management) juga tampak cukup menarik
Secara pribadi terasa agak aneh karena "Old man" tidak terlihat setua itu (dengan pengakuan bercanda bahwa mungkin saya sendiri yang sudah menua)

Seedance 1.0 - model generasi video multi-shot dari ByteDance

Pengenalan Seedance 1.0

Bacaan terkait

1 komentar

Komentar Hacker News