1 poin oleh GN⁺ 2024-09-07 | 1 komentar | Bagikan ke WhatsApp

Pengenalan Infinity AI

  • Infinity AI adalah perusahaan yang melatih model video yang berpusat pada manusia
  • Merupakan contoh pertama yang melatih video diffusion transformer yang digerakkan oleh input audio
  • Model ini dapat menghasilkan karakter yang ekspresif dan realistis yang benar-benar berbicara

Cara penggunaan

  • Dengan menggunakan alat Infinity AI, Anda dapat memasukkan skrip lalu menghasilkan video karakter yang berbicara
  • Contoh:
    • "Video Mona Lisa yang mengatakan 'Lihat apa sampai tersenyum begitu?'"
    • "Video gnome 3D bergaya Pixar dengan topi merah yang membacakan Deklarasi Kemerdekaan"
    • "Video Elon Musk yang menyanyikan 'Fly Me To The Moon' milik Frank Sinatra"

Masalah pada alat AI yang sudah ada

  • Model video AI generatif yang sudah ada tidak dapat membuat karakter berbicara
  • Perusahaan avatar berbicara sebelumnya menggunakan pendekatan menambahkan lip-sync di atas video yang sudah ada
  • Akibatnya, ekspresi dan gestur sering tidak cocok dengan audio sehingga memunculkan fenomena "uncanny valley"

Keterbatasan model V1

  • Selain ketidakcocokan gestur, pendekatan lip-sync juga memiliki berbagai keterbatasan lain
  • Ada masalah seperti pustaka aktor yang terbatas dan ketidakmampuan menganimasikan karakter imajiner

Peningkatan pada model V2

  • Melatih model video diffusion transformer end-to-end yang menerima satu gambar, audio, dan sinyal kondisi lainnya sebagai input lalu menghasilkan video
  • Diyakini sebagai pendekatan terbaik untuk menangkap kompleksitas dan nuansa gerakan serta emosi manusia
  • Kekurangannya, model ini lambat

Kelebihan model

  • Dapat menangani banyak bahasa
  • Mempelajari sebagian aspek fisika (misalnya, anting bergoyang dengan benar)
  • Dapat menganimasikan berbagai jenis gambar (lukisan, patung, dan lain-lain)
  • Dapat menangani nyanyian

Kekurangan model

  • Tidak dapat menangani gambar hewan (hanya gambar humanoid yang memungkinkan)
  • Sering memasukkan tangan ke dalam frame (sangat mengganggu dan memecah perhatian)
  • Tidak cukup tangguh untuk kartun
  • Dapat mendistorsi identitas seseorang (terutama terlihat pada figur terkenal)

Coba modelnya

Ringkasan GN⁺

  • Model video Infinity AI adalah contoh pertama yang dapat menghasilkan karakter realistis melalui input audio
  • Model ini mengatasi keterbatasan alat AI sebelumnya dan menangkap gerakan serta emosi manusia dengan lebih baik melalui model video diffusion transformer end-to-end
  • Model ini unggul karena dapat menangani banyak bahasa dan berbagai jenis gambar, tetapi memiliki kekurangan seperti tidak bisa memproses gambar hewan dan sering memasukkan tangan ke dalam frame
  • Proyek lain dengan fungsi serupa termasuk Runway dan Luma

1 komentar

 
GN⁺ 2024-09-07
Komentar Hacker News
  • Terlihat seperti tiruan murahan dari Hedra, dan untuk saat ini masih jauh tertinggal
  • Saya menggunakan text-to-image untuk membuat space marine, dan hasilnya keluar mengejutkan bahkan tanpa penyuntingan tambahan
  • Begitu melihat opsi wajah "Gnome", saya langsung tahu apa yang harus dilakukan
  • Model ini sepertinya tidak menyukai Duke Nukem
  • Setelah pistolnya saya potong, hasilnya malah jadi lebih buruk
  • Gambar lain menunjukkan hasil yang sedikit lebih baik
  • Gambar ini yang paling saya sukai
  • Seseorang memang harus melakukan ini
  • Ada riset pendahulu seperti Emo dari Alibaba Research, tetapi demo ini mengesankan karena benar-benar bisa dicoba orang
  • Saya mencoba mewujudkan meme ini, tetapi gambar aslinya sulit
    • Ada sedikit masalah bahasa pada audionya
  • Saya mencoba mendorongnya ke uncanny valley, tetapi ternyata cukup sulit
  • Kadang-kadang ia menyisipkan tangan ke dalam frame
    • Sepertinya dilatih dengan terlalu banyak data Italia
  • Alat ini sangat mengagumkan
    • Ada masalah kecil pada audio pendek (3~5 detik), di mana gambar tetap sepenuhnya diam