📝 TL;DR
- LTX-2 = standar baru untuk model generasi video multimodal open-source
- Menghasilkan 4K+audio secara real-time di hardware kelas konsumen
- Seluruh bobot model+kode+benchmark akan dibuka pada akhir November
- Dibuat oleh Lightricks, makalah arXiv sudah dipublikasikan
🔑 Poin Utama
-
Model generasi audio-video tersinkronisasi open-source pertama
- Sora 2 dan Movie Gen bersifat komersial/tertutup, sedangkan LTX-2 akan dirilis sepenuhnya sebagai open source pada akhir November
- Menghasilkan video 4K 50fps hingga 10 detik + audio yang tersinkronisasi
-
Kecepatan generasi lebih cepat dari real-time
- H100: menghasilkan video 5 detik 24fps pada resolusi 768x512 hanya dalam 2 detik
- Biaya komputasi berkurang 50% dibanding model sebelumnya
- Bisa dijalankan juga di GPU kelas konsumen seperti RTX 4090
-
Inovasi arsitektur DiT hibrida
- Video-VAE: rasio kompresi 1:192 (downscaling 32x32x8)
- Decoder VAE menangani hingga denoising akhir → detail halus tetap terjaga tanpa upsampling terpisah
- Mewujudkan performa real-time dengan stack inferensi multi-GPU
-
Kontrol kreatif yang detail
- Conditioning multi-keyframe, logika kamera 3D
- Fine-tuning LoRA untuk menjaga konsistensi gaya merek/IP
- Tiga mode Fast/Pro/Ultra untuk menyesuaikan kecepatan-kualitas
-
Ekosistem yang siap dipakai segera
- Sudah terintegrasi dengan Fal.ai, Replicate, dan ComfyUI
- Bisa diuji di API Playground
- Mendukung integrasi langsung dengan alat editing, stack VFX, dan game engine
Belum ada komentar.