4 poin oleh GN⁺ 2024-04-20 | 2 komentar | Bagikan ke WhatsApp
  • Microsoft Research memperkenalkan proyek baru bernama VASA-1
  • Teknologi yang menghasilkan video wajah berbicara yang realistis hanya dari satu foto seseorang dan input audio secara real-time
  • Bibir dan ekspresi wajah bergerak alami mengikuti suara, dengan tingkat realisme yang hampir sulit dibedakan dari orang sungguhan yang sedang berbicara
  • Menggunakan model difusi yang menerima sinyal opsional sebagai kondisi (arah tatapan utama, jarak kepala, offset emosi, dll.), serta menampilkan hasil generasi berdasarkan arah tatapan utama (depan, kiri, kanan, atas), skala jarak kepala, dan offset emosi (netral, bahagia, marah, terkejut)
  • Dalam mode pemrosesan batch offline, menghasilkan frame video berukuran 512x512 pada 45 frame per detik
  • Dalam mode streaming online, mendukung hingga 40 frame per detik dan hanya memerlukan latensi awal 170ms (pada PC desktop dengan 1 GPU NVIDIA RTX 4090)

Opini GN⁺

  • Jika teknologi seperti ini menjadi praktis digunakan, teknologi ini dapat dimanfaatkan di berbagai bidang seperti manusia virtual, avatar AI, dan metaverse. Khususnya, tampaknya akan ada permintaan besar dari industri hiburan seperti game, film, dan animasi
  • Di sisi lain, ada kekhawatiran soal dampak negatif, seperti penyalahgunaan untuk membuat berita palsu atau video deepfake menggunakan wajah selebritas. Diperlukan langkah teknis dan institusional untuk mencegah penggunaan yang berniat jahat
  • Teknologi serupa mencakup Audio2Face yang diumumkan oleh NVIDIA. Teknologi-teknologi tersebut umumnya hanya dapat menghasilkan wajah orang tertentu yang telah dilatih sebelumnya, sedangkan VASA-1 dibedakan oleh kemampuannya menghasilkan wajah baru secara real-time
  • Menurut tim pengembang, VASA-1 masih berada pada tahap awal dan mereka berencana terus meningkatkan kualitas gambar serta stabilitasnya ke depan. Kemungkinan masih perlu waktu sebelum dikomersialisasikan, tetapi diperkirakan suatu hari nanti kita akan berhadapan dengan manusia buatan seperti ini dalam kehidupan sehari-hari

2 komentar

 
tomriddle7 2024-04-22

Di episode 1394 Unanswered Questions, muncul kasus penipuan uang dengan menyamar sebagai figur publik menggunakan foto & audio, jadi rasanya mengkhawatirkan karena ini bisa disalahgunakan untuk hal seperti itu.

 
GN⁺ 2024-04-20
Pendapat Hacker News

Ringkasan:

  • VASA-1 dari Microsoft dapat membuat deepfake hanya dengan satu foto dan satu trek audio. Teknologi deepfake tampaknya akan menjadi semakin cepat, semakin baik, semakin mudah, dan semakin murah.
  • Di sisi lain, perusahaan kartu kredit telah mengadopsi autentikasi suara, tetapi mereka tampaknya tidak menyadari bahwa siapa pun bisa mendapatkan klip audio singkat dari jejaring sosial untuk menyalin suara seseorang. Perusahaan-perusahaan tertinggal dari zaman.
  • VASA-1 tidak sebagus EMO. Ada gerakan tubuh yang terlihat palsu, dan banyak bagian lip-sync yang tidak sinkron dengan baik. Gerakan mata serta gerakan kepala dan tubuh secara keseluruhan juga terasa tidak alami.
  • Satu-satunya tujuan teknologi ini tampaknya agar mata-mata dapat menyalahgunakan orang lain. Apakah ke depannya kita harus melakukan autentikasi pada setiap panggilan telepon dan konferensi video?
  • Makalah ini menyebutkan penggunaan Diffusion Transformers. Implementasi open source-nya adalah implementasi PyTorch dari Facebook Research, tetapi berlisensi nonkomersial. Saya penasaran apakah ada padanannya dengan lisensi MIT atau Apache.
  • Kita membutuhkan semacam kerangka tata kelola yang dapat menjamin keaslian dari apa yang kita lihat. Namun ini bukan masalah yang mudah, misalnya tanda tangan akan rusak ketika foto/video dimanipulasi.
  • Ini benar-benar teknologi yang gila, dan ke depannya akan menjadi lebih baik lagi. Saya pikir deepfake masih jauh, tetapi sepertinya kita perlu lebih berhati-hati saat online.
  • Kemajuan teknologi yang luar biasa untuk campur tangan pemilu!