Pengenalan Infinity AI
- Infinity AI adalah perusahaan yang melatih model video yang berpusat pada manusia
- Merupakan contoh pertama yang melatih video diffusion transformer yang digerakkan oleh input audio
- Model ini dapat menghasilkan karakter yang ekspresif dan realistis yang benar-benar berbicara
Cara penggunaan
- Dengan menggunakan alat Infinity AI, Anda dapat memasukkan skrip lalu menghasilkan video karakter yang berbicara
- Contoh:
- "Video Mona Lisa yang mengatakan 'Lihat apa sampai tersenyum begitu?'"
- "Video gnome 3D bergaya Pixar dengan topi merah yang membacakan Deklarasi Kemerdekaan"
- "Video Elon Musk yang menyanyikan 'Fly Me To The Moon' milik Frank Sinatra"
Masalah pada alat AI yang sudah ada
- Model video AI generatif yang sudah ada tidak dapat membuat karakter berbicara
- Perusahaan avatar berbicara sebelumnya menggunakan pendekatan menambahkan lip-sync di atas video yang sudah ada
- Akibatnya, ekspresi dan gestur sering tidak cocok dengan audio sehingga memunculkan fenomena "uncanny valley"
Keterbatasan model V1
- Selain ketidakcocokan gestur, pendekatan lip-sync juga memiliki berbagai keterbatasan lain
- Ada masalah seperti pustaka aktor yang terbatas dan ketidakmampuan menganimasikan karakter imajiner
Peningkatan pada model V2
- Melatih model video diffusion transformer end-to-end yang menerima satu gambar, audio, dan sinyal kondisi lainnya sebagai input lalu menghasilkan video
- Diyakini sebagai pendekatan terbaik untuk menangkap kompleksitas dan nuansa gerakan serta emosi manusia
- Kekurangannya, model ini lambat
Kelebihan model
- Dapat menangani banyak bahasa
- Mempelajari sebagian aspek fisika (misalnya, anting bergoyang dengan benar)
- Dapat menganimasikan berbagai jenis gambar (lukisan, patung, dan lain-lain)
- Dapat menangani nyanyian
Kekurangan model
- Tidak dapat menangani gambar hewan (hanya gambar humanoid yang memungkinkan)
- Sering memasukkan tangan ke dalam frame (sangat mengganggu dan memecah perhatian)
- Tidak cukup tangguh untuk kartun
- Dapat mendistorsi identitas seseorang (terutama terlihat pada figur terkenal)
Coba modelnya
Ringkasan GN⁺
- Model video Infinity AI adalah contoh pertama yang dapat menghasilkan karakter realistis melalui input audio
- Model ini mengatasi keterbatasan alat AI sebelumnya dan menangkap gerakan serta emosi manusia dengan lebih baik melalui model video diffusion transformer end-to-end
- Model ini unggul karena dapat menangani banyak bahasa dan berbagai jenis gambar, tetapi memiliki kekurangan seperti tidak bisa memproses gambar hewan dan sering memasukkan tangan ke dalam frame
- Proyek lain dengan fungsi serupa termasuk Runway dan Luma
1 komentar
Komentar Hacker News