Show HN: Infinity – Karakter AI realistis yang bisa berbicara

(news.ycombinator.com)

1 poin oleh GN⁺ 2024-09-07 | 1 komentar | Bagikan ke WhatsApp

Infinity AI melatih model video fondasi yang berpusat pada manusia untuk menghasilkan video karakter berbicara hanya dari input audio
Kreator dapat memasukkan skrip yang akan diucapkan karakter untuk membuat video, dan selanjutnya menargetkan bentuk yang juga bisa menentukan tindakannya
V2 adalah model end-to-end yang menerima satu gambar, audio, dan sinyal kondisi untuk membuat video, sebagai pendekatan untuk mengurangi ketidakselarasan ekspresi dan gestur pada metode lip-sync yang ada
Sejauh ini, sekitar 11 GPU-year dan sekitar 500 ribu dolar telah diinvestasikan, tetapi meski memakai rectified flow dan 3D VAE embedding layer, kecepatan generasinya masih lambat
Model ini kuat dalam multibahasa, gerakan fisik, lukisan atau gambar patung, serta nyanyian, tetapi masih memiliki mode kegagalan seperti hewan, kartun, penyisipan tangan, dan distorsi identitas tokoh terkenal

Video karakter berbicara yang dibuat Infinity V2

Infinity AI melatih model video fondasi miliknya sendiri yang berfokus pada manusia
Sepengetahuan tim, ini mendekati kasus pertama pelatihan video diffusion transformer yang digerakkan oleh input audio
Pendekatan ini berfokus pada pembuatan video karakter yang benar-benar berbicara dengan ekspresif dan tampak realistis
Contoh video dapat dilihat di V2 launch blog
Model ini bisa dicoba langsung di Infinity Studio
Jika meninggalkan deskripsi karakter di komentar HN, tim mengatakan mereka akan membuat videonya dan membalas dengan tautan
- “Mona Lisa saying ‘what the heck are you smiling at?’”
- “A 3D pixar-style gnome with a pointy red hat reciting the Declaration of Independence”
- “Elon Musk singing Fly Me To The Moon by Sinatra”

Model video AI generatif seperti Runway dan Luma tidak cocok untuk membuat karakter berbicara
Layanan talking avatar seperti HeyGen dan Synthesia menerapkan lip-sync di atas video yang direkam sebelumnya
- Audio serta ekspresi dan gestur bisa tidak selaras
- Ketidakselarasan ini dapat menimbulkan kesan uncanny yang sulit ditelusuri penyebabnya
Infinity V1 juga menggunakan pendekatan lip-sync
- Ketidakselarasan gestur masih tersisa
- Perlu fine-tuning model untuk tiap aktor menggunakan materi video yang ada, sehingga pustaka aktor terbatas
- Sulit menganimasikan karakter imajiner
V2 beralih menjadi video diffusion transformer end-to-end yang menerima satu gambar, audio, dan sinyal kondisi lain sebagai input lalu menghasilkan video
- Mereka menilai pendekatan ini paling cocok untuk menangkap kompleksitas dan nuansa gerakan serta emosi manusia
- Kekurangannya adalah kecepatan generasi yang lambat
- Percepatan 2–4x didapat dari rectified flow dan 2–5x dari 3D VAE embedding layer, tetapi tetap masih lambat
Hingga saat ini sekitar 11 GPU-year dan sekitar 500 ribu dolar telah diinvestasikan untuk pelatihan, dan pelatihan model masih terus berlanjut

Kekuatan
- Dapat menangani banyak bahasa
- Mempelajari sebagian fisika, seperti anting yang bergoyang secara alami dan menyimpulkan pasangannya di telinga seberang
- Dapat menganimasikan jenis gambar yang tidak dilatih, seperti lukisan dan patung
- Dapat menangani nyanyian
Batasan
- Tidak dapat menangani hewan dan hanya mendukung gambar humanoid
- Sering menyisipkan tangan ke dalam frame sehingga bisa mengganggu
- Tidak cukup robust untuk kartun
- Dapat mendistorsi identitas seseorang, terutama terlihat pada tokoh terkenal

GN⁺ 2024-09-07

Terlihat seperti tiruan murahan dari Hedra, dan untuk saat ini masih jauh tertinggal
Saya menggunakan text-to-image untuk membuat space marine, dan hasilnya keluar mengejutkan bahkan tanpa penyuntingan tambahan
Begitu melihat opsi wajah "Gnome", saya langsung tahu apa yang harus dilakukan
Model ini sepertinya tidak menyukai Duke Nukem
Setelah pistolnya saya potong, hasilnya malah jadi lebih buruk
Gambar lain menunjukkan hasil yang sedikit lebih baik
Gambar ini yang paling saya sukai
Seseorang memang harus melakukan ini
Ada riset pendahulu seperti Emo dari Alibaba Research, tetapi demo ini mengesankan karena benar-benar bisa dicoba orang
Saya mencoba mewujudkan meme ini, tetapi gambar aslinya sulit
- Ada sedikit masalah bahasa pada audionya
Saya mencoba mendorongnya ke uncanny valley, tetapi ternyata cukup sulit
Kadang-kadang ia menyisipkan tangan ke dalam frame
- Sepertinya dilatih dengan terlalu banyak data Italia
Alat ini sangat mengagumkan
- Ada masalah kecil pada audio pendek (3~5 detik), di mana gambar tetap sepenuhnya diam