- Microsoft Research memperkenalkan proyek baru bernama VASA-1
- Teknologi yang menghasilkan video wajah berbicara yang realistis hanya dari satu foto seseorang dan input audio secara real-time
- Bibir dan ekspresi wajah bergerak alami mengikuti suara, dengan tingkat realisme yang hampir sulit dibedakan dari orang sungguhan yang sedang berbicara
- Menggunakan model difusi yang menerima sinyal opsional sebagai kondisi (arah tatapan utama, jarak kepala, offset emosi, dll.), serta menampilkan hasil generasi berdasarkan arah tatapan utama (depan, kiri, kanan, atas), skala jarak kepala, dan offset emosi (netral, bahagia, marah, terkejut)
- Dalam mode pemrosesan batch offline, menghasilkan frame video berukuran 512x512 pada 45 frame per detik
- Dalam mode streaming online, mendukung hingga 40 frame per detik dan hanya memerlukan latensi awal 170ms (pada PC desktop dengan 1 GPU NVIDIA RTX 4090)
Opini GN⁺
- Jika teknologi seperti ini menjadi praktis digunakan, teknologi ini dapat dimanfaatkan di berbagai bidang seperti manusia virtual, avatar AI, dan metaverse. Khususnya, tampaknya akan ada permintaan besar dari industri hiburan seperti game, film, dan animasi
- Di sisi lain, ada kekhawatiran soal dampak negatif, seperti penyalahgunaan untuk membuat berita palsu atau video deepfake menggunakan wajah selebritas. Diperlukan langkah teknis dan institusional untuk mencegah penggunaan yang berniat jahat
- Teknologi serupa mencakup Audio2Face yang diumumkan oleh NVIDIA. Teknologi-teknologi tersebut umumnya hanya dapat menghasilkan wajah orang tertentu yang telah dilatih sebelumnya, sedangkan VASA-1 dibedakan oleh kemampuannya menghasilkan wajah baru secara real-time
- Menurut tim pengembang, VASA-1 masih berada pada tahap awal dan mereka berencana terus meningkatkan kualitas gambar serta stabilitasnya ke depan. Kemungkinan masih perlu waktu sebelum dikomersialisasikan, tetapi diperkirakan suatu hari nanti kita akan berhadapan dengan manusia buatan seperti ini dalam kehidupan sehari-hari
2 komentar
Di episode 1394 Unanswered Questions, muncul kasus penipuan uang dengan menyamar sebagai figur publik menggunakan foto & audio, jadi rasanya mengkhawatirkan karena ini bisa disalahgunakan untuk hal seperti itu.
Pendapat Hacker News
Ringkasan: