SoundStorm: Pembuatan Audio Paralel yang Efisien

(google-research.github.io)

1 poin oleh GN⁺ 2023-07-18 | 1 komentar | Bagikan ke WhatsApp

SoundStorm adalah model yang menerima token semantik dari AudioLM lalu menghasilkan token codec audio neural secara paralel, sehingga mengurangi beban komputasi untuk pembuatan audio panjang
Dengan perhatian dua arah dan decoding paralel berbasis kepercayaan, model ini menargetkan kualitas setara sambil meningkatkan konsistensi terhadap kondisi suara dan akustik dibanding pendekatan autoregresif
Di TPU-v4, model ini menghasilkan audio 30 detik dalam 0,5 detik, menunjukkan kecepatan puluhan kali lebih cepat dibanding generator akustik AudioLM
Jika digabungkan dengan SPEAR-TTS, skrip, prompt suara pendek, dan anotasi pergantian pembicara dapat dikendalikan untuk mensintesis percakapan alami 30 detik dalam 2 detik pada satu TPU-v4
Peniruan suara dapat disalahgunakan untuk penyamaran dan melewati autentikasi biometrik, sehingga diperlukan perlindungan; audio hasil penggantian terdeteksi oleh pengklasifikasi khusus dengan tingkat 98,5%

Cara kerja dan performa SoundStorm

SoundStorm adalah model pembuatan audio non-autoregresif yang efisien
Masukannya adalah token semantik dari AudioLM, dan keluarannya adalah token codec audio neural
Kinerja pembuatannya didasarkan pada dua rancangan
- Perhatian dua arah untuk memanfaatkan konteks sebelum dan sesudah secara bersamaan
- Decoding paralel berbasis kepercayaan untuk menghasilkan banyak token sekaligus
Dibandingkan metode pembuatan autoregresif AudioLM, model ini menghasilkan audio dengan kualitas setara sambil memberikan konsistensi yang lebih tinggi terhadap kondisi suara dan akustik
Di TPU-v4, model ini menghasilkan audio 30 detik dalam 0,5 detik

Sintesis percakapan

SoundStorm dapat digabungkan dengan tahap pemodelan teks-ke-semantik milik SPEAR-TTS untuk mensintesis percakapan alami berkualitas tinggi
Ada tiga elemen yang dapat dikendalikan
- Isi ujaran melalui skrip
- Suara pembicara melalui prompt suara pendek
- Pergantian pembicara melalui anotasi pada skrip
Waktu proses sintesis untuk segmen percakapan 30 detik diukur 2 detik pada satu TPU-v4
Teks dan pembicara yang digunakan dalam contoh adalah data yang tidak pernah dilihat selama pelatihan

Pembuatan dengan dan tanpa prompt

SoundStorm menghasilkan audio dengan token semantik AudioLM sebagai kondisi, dan mendemonstrasikan baik kasus dengan prompt suara 3 detik maupun tanpa prompt
Tanpa prompt, model mengambil sampel pembicara yang berbeda
Dengan prompt, model mempertahankan suara pembicara dengan konsistensi tinggi
Sampel asli diambil dari LibriSpeech test-clean
Kecepatan pembuatan puluhan kali lebih cepat dibanding generator akustik AudioLM

Perbandingan dengan model acuan

Dalam pembuatan berbasis prompt, SoundStorm memiliki konsistensi akustik yang lebih tinggi daripada AudioLM dan lebih baik dalam mempertahankan suara pembicara dari prompt
Dibandingkan RVQ level-wise greedy decoding pada model yang sama, SoundStorm menghasilkan audio dengan kualitas lebih tinggi
Contoh perbandingan menyajikan keluaran Original, AudioLM, Greedy, dan SoundStorm secara berdampingan

Dampak dan pertimbangan keamanan

SoundStorm adalah model yang menghasilkan representasi berbasis codec audio neural untuk audio dengan kualitas tinggi dan efisien
Dalam pekerjaan ini, model tersebut digunakan sebagai komponen yang menggantikan pipeline pembuatan akustik dari AudioLM dan SPEAR-TTS
Sampel yang dihasilkan dapat terpengaruh oleh bias dalam data pelatihan, dan contoh dapat memuat keterbatasan seperti intonasi dan karakteristik suara yang dianggap representatif
Karakteristik pembicara dapat dikendalikan secara stabil melalui prompt, tetapi analisis yang lebih menyeluruh terhadap data pelatihan dan keterbatasannya masih menjadi area pekerjaan di masa depan
Kemampuan meniru suara memiliki potensi penyalahgunaan
- Dapat digunakan untuk melewati autentikasi biometrik dan penyamaran, sehingga perlindungan sangat penting
- Audio hasil penggantian terdeteksi oleh pengklasifikasi khusus seperti pada Borsos et al. (2022) dengan tingkat 98,5%
- Sebagai komponen dalam sistem yang lebih besar, SoundStorm dipandang kecil kemungkinannya menambah risiko baru di luar risiko yang dibahas dalam Borsos et al. (2022) dan Kharitonov et al. (2023)
- Menurunkan kebutuhan memori dan komputasi AudioLM dapat membuat riset pembuatan audio lebih mudah diakses oleh komunitas yang lebih luas
- Ke depan, mereka berencana mengeksplorasi watermarking audio sebagai pendekatan lain untuk mendeteksi suara sintetis

1 komentar

GN⁺ 2023-07-18

Pendapat Hacker News

CGI selalu punya tonggak pencapaian yang terus didekati. Pohon berdaun akhirnya mulai mendekati kenyataan, rumput yang bergoyang tertiup angin hampir terlihat meyakinkan, rambut dan benda seperti jeli makin membaik; biasanya film pendek Pixar menunjukkan apa yang sedang mereka fokuskan, lalu kita melihatnya diterapkan di film
Setelah itu muncul motion capture, teknologi memasang wajah digital di atas wajah aktor sungguhan; saya pertama kali melihatnya di Pirates of the Caribbean dan terkejut, begitu juga dengan kera-kera di Planet of the Apes. Banyak bagian industri CGI kini tampak sudah mencapai titik seolah masalah tersulitnya telah terpecahkan
Sekarang saya memutar dialog sintetis pertama dari Dialogue Synthesis, “Where did you go last summer? | I went to Greece, it was amazing.”, dan kembali terkejut. Rasanya kita sekarang telah mencapai tonggak ketika mesin benar-benar berbicara seperti manusia hingga tak bisa dibedakan dari manusia
Baru 10–5 tahun lalu, kalau ingin memakai TTS, pilihan terbaik adalah merender file suara dengan ponsel Android, dan yang lain benar-benar buruk. Terutama di sisi open source, kondisinya mengerikan
Jadi, berapa lama lagi sampai kita bisa mengunduh model dengan kualitas ini ke Raspberry Pi generasi mendatang, lalu cukup melakukan panggilan HTTP tanpa cloud dan mendapatkan suara sempurna dari output audio? 5 tahun?
- Pertanyaan lain: berapa lama lagi sampai ada sistem yang bernyanyi dalam 10 oktaf, sehingga penyanyi manusia sungguhan tidak lagi dibutuhkan atau diinginkan?
- Kalau pertanyaannya “bisakah menghasilkan suara sempurna di Raspberry Pi generasi mendatang tanpa cloud”, mungkin sekitar 5 tahun? Kemungkinan saat model Whisper yang lebih besar sudah bisa berjalan di atasnya. Bisa jadi dengan menjalankan versi terkuantisasi atau teroptimasi dari suatu model audio di Raspberry Pi berikutnya
  Bahkan sekarang, kalau benar-benar berusaha keras, dan alih-alih memakai model besar serbaguna yang bisa menghasilkan suara apa pun kita memakai model kecil yang di-fine-tune untuk satu suara, mungkin hampir bisa. Bukankah whisper-tiny berjalan real-time di Pi? Selain itu, ia bahkan tidak memanfaatkan GPU Pi. (https://github.com/ggerganov/whisper.cpp/discussions/166)
  Edit: sepertinya medium 30 kali lebih lambat daripada tiny di Pi, jadi saya tampaknya terlalu optimistis. Saya tidak tahu Whisper tiny secepat itu dibanding medium
  Pendekatan ini juga cukup berhasil pada Tortoise, sehingga meski memakai pengaturan kualitas Tortoise yang sangat cepat, kita tetap bisa mendapat kualitas yang mirip dengan model yang lebih besar. Tentu saja, kalau seluruhnya di-fine-tune untuk satu suara, banyak fitur kerennya akan hilang. Untuk Tortoise, mungkin tetap terlalu lambat di Pi, tetapi strategi yang sama berpotensi berhasil pada model yang lebih cepat seperti SoundStorm
  Dari sisi kualitas, konsistensi jangka panjang pada segmen audio yang panjang masih perlu banyak kemajuan. Ketika orang sungguhan membacakan buku audio, kata-kata di bagian atas halaman sangat memengaruhi cara membaca kata-kata di bagian bawah. Bahkan bisa berpengaruh pada jarak yang jauh, seperti dari halaman 10 ke halaman 300. Kalau membuat buku audio dengan model TTS kelas atas dan mendengarkannya dengan saksama, ketidakkonsistenannya benar-benar terasa. Rasanya seperti pembaca merekam paragraf-paragraf secara tidak berurutan, atau seperti dialog video game ketika para aktor merekam semua dialog secara terpisah sehingga tidak merespons akting satu sama lain
  Kalau jendela konteks diperpanjang menjadi 1 atau 2 menit, hasilnya akan lebih dekat dan mungkin cukup untuk buku tertentu. Dalam jangka pendek, manusia bisa menyesuaikan semua sampel audio dan mengutak-atiknya secara manual agar terdengar alami. Jadi pekerjaan yang memakan waktu untuk menyelaraskan semuanya dengan benar, seperti buku audio buatan penggemar, akan menjadi mungkin. Namun pada buku yang sepenuhnya otomatis, ketidakkonsistenan ini sangat menjengkelkan. Karena akting pada bagian tertentu sudah sangat mendekati, momen ketika nadanya melenceng justru terasa lebih menyakitkan
- Kalau benar-benar butuh form factor kecil, sekarang pun bisa membeli Jetson dan menjalankan model yang lebih kompleks. Hanya saja mahal
- Saya juga selama bertahun-tahun mengagumi tahapan-tahapan perkembangan CGI. Selalu menyenangkan melihat satu lagi bagian rumit dari dunia nyata berhasil dirender
  Namun belakangan ini, setiap kali muncul teknik baru yang meniru dan mereplikasi kreativitas serta perilaku manusia, rasa gelisah saya terus menumpuk
  Apakah saya punya hak untuk tahu apakah sesuatu yang saya lihat atau baca itu dihasilkan oleh mesin?
- Menurut saya paling lama 2 tahun
Bagus kalau Bing dan Bard memakai produk terbaru Microsoft dan Google Cloud, tetapi saya berharap kemajuan teknologi suara seperti ini, bersama hal-hal seperti audio palm(https://google-research.github.io/seanet/audiopalm/examples/), hadir sebagai API publik atau antarmuka pengguna
TTS Bard lumayan, tetapi jelas tertinggal
Di luar itu, TTS bahasa Inggris/Korea milik Bing benar-benar bagus. Saya tidak tahu Microsoft memakai produk kelas atas untuk TTS gratis di Edge, dan karena itu hasilnya jauh lebih baik daripada suara TTS bawaan Google
- Baru-baru ini saya memakai Azure TTS untuk narasi suara demo produk, dan tak satu pun orang yang saya tunjukkan menyadari bahwa itu bukan rekaman manusia
  Ada beberapa suara Azure yang lebih baik daripada yang lain, dan aplikasi web TTS-nya punya beberapa bug kecil, tetapi pengalaman keseluruhannya benar-benar memuaskan
- Sudah mencoba Google Cloud Studio voices?
  https://cloud.google.com/text-to-speech/docs/wavenet#studio_voices_preview
- Pernyataan bahwa “Microsoft memakai produk kelas atas untuk TTS gratis di Edge sehingga mengungguli suara TTS bawaan Google” sangat menarik; bisa jelaskan sedikit lagi? Saya kurang mengikuti bidang ini, jadi parser saya jadi kacau
  Saya bingung apakah “produk kelas atas untuk TTS gratis” berarti library perangkat lunak bebas, SaaS gratis, apakah “on edge” berarti browser Edge, atau eksekusi di edge pada komputer klien. Apakah maksudnya semua TTS yang berjalan di komputer klien lebih baik daripada TTS bawaan Google?
- “API publik atau antarmuka pengguna” membuat saya menghela napas. Dulu Google juga merilis sebagian model ke publik, tetapi sepertinya masa-masa awal yang menyenangkan itu mulai berakhir
Hal yang terlewat ketika para pengrajin dengan lancar mengatakan bahwa orang-orang tinggal mencari pekerjaan lain adalah bahwa pekerjaan baru itu sering kali sederhana dan bergaji rendah. Ketika Amazon menyingkirkan toko-toko lokal, mereka bukan memulai bisnis baru, melainkan mencari pekerjaan di Wal-Mart
Menarik bahwa SoundStorm dilatih untuk membuat percakapan dua orang dengan memakai naskah yang menandai pergantian suara dengan |. Namun pada model Bark pun karakter | yang sama tampaknya hampir secara default berfungsi untuk menghasilkan percakapan
Sekitar sepertiga atau sedikit lebih dari keluaran Bark terdengar seperti dialog yang diucapkan sendirian, dan sering juga melewatkan pergantian suara. Meski begitu, karakter pipe cukup stabil menghasilkan audio yang secara gaya akting terdengar seperti percakapan
https://twitter.com/jonathanfly/status/1675987073893904386
Apakah di suatu tempat dalam data pelatihannya ada data teks-audio yang memakai | untuk pergantian suara?
Menariknya, Bark cenderung merender prompt SoundStorm dengan nada menyindir. Entah ini perbedaan gaya model, atau Google hanya memilih pembacaan yang lebih lugas sebagai sampel representatif
- Sejauh yang saya tahu para pembuatnya tidak mengatakannya, tetapi Bark tampaknya banyak dilatih pada korpus YouTube dibanding dataset audio machine learning pada umumnya. Audio di tempat seperti itu bisa saja memiliki transkripsi semacam ini, dan mungkin karena itu hal-hal seperti [laughs] juga berfungsi
Saya penasaran apakah marketplace kerja seperti UpWork atau Fiverr bisa beradaptasi cukup cepat dengan situasi baru ketika banyak layanan yang dulu dilakukan manusia kini bisa dilakukan perangkat lunak
Antarmuka marketplace saat ini tampaknya tidak cocok untuk itu. Pembeli akan menginginkan hasil instan, alih-alih menghubungi orang dan menunggu pekerjaan selesai
Jadi platformnya sepertinya perlu diubah menjadi seperti app store. Penjual menghubungkan layanan mereka, dan pembeli langsung menggunakan layanan tersebut
- Saya tidak mengerti kenapa semua orang hanya fokus pada “bagaimana ini akan menggantikan manusia?” Ini hanya text-to-speech yang sangat bagus
- Para pengguna itu sudah menangani pekerjaan mereka dengan AI. Menurut saya itu tidak masalah
- Manfaat yang saya lihat ada pada penggantian dialog. Setelah sebuah proyek selesai, memanggil kembali aktor ke studio memakan banyak waktu. Mereka mungkin sudah pindah ke proyek lain, dan jika aktornya banyak dicari, jadwalnya padat sehingga waktu untuk bekerja bersama terbatas. Selain itu, sebagian aktor tidak terlalu baik dalam proses ini sendiri. Jadi mereka harus ditahan lama di ruangan untuk mendapatkan akting yang diinginkan, dan ini bisa sangat sulit terutama jika akting itu muncul dalam konteks tertentu
  Jika ada alat yang memungkinkan kita memasukkan beberapa dialog lama sang aktor, lalu menghasilkan sesuatu untuk mengisi kekosongan sesuai parameter yang ditetapkan, sehingga proyek bisa terus berjalan tanpa semua masalah logistik, itu akan terasa seperti surga
  Namun itu juga bisa membunuh satu bidang profesi secara keseluruhan. Nilai aktor pun akan turun. Sebenarnya ini sudah terjadi. Di pasar sudah ada program-program yang sepenuhnya menggantikan pengisi suara, dan digunakan di bidang video game
  Untuk pekerjaan saya, ini jelas bisa membantu. Pada saat yang sama, saya juga sangat sadar bahwa potensinya untuk disalahgunakan sangat besar
- Bukankah cukup memakai marketplace perangkat lunak yang sudah ada?
Bagian paling mengesankan adalah bahwa tampaknya ini bisa membuat TTS 30 detik hanya dari sumber asli 3 detik. Benar-benar keren, dan jujur saja jauh lebih maju daripada yang saya perkirakan
Melihat perkembangan belakangan ini, adakah suara TTS untuk Linux yang layak dan bisa dipakai pengguna umum tanpa konfigurasi rumit?
Saya tidak ingin memainkan game yang dibuat dengan cara seperti ini. Alasan persis saya ingin mendengarkan percakapan NPC adalah karena itu dialog yang ditulis manusia
Mengesankan, tetapi contoh pertama gagal pada saat terakhir ketika suara laki-laki virtualnya mengatakan “what?” lalu meluncur ke atas, dan efek koreksi pitch seperti auto-tune terdengar jelas
Contoh-contoh lainnya benar-benar luar biasa. Jika memang hanya dengan beberapa detik pelatihan bisa menghasilkan suara meyakinkan berdurasi beberapa menit, langkah berikutnya tampaknya adalah membuatnya bernyanyi. Saya rasa akan muncul badai hukum ketika seseorang memakai teknologi serupa, misalnya memakai suara Elvis dalam iklan tanpa menyebut namanya, dengan penggemar bisa mengenalinya tetapi audionya tidak cocok dengan lirik atau lagu lamanya
- Contoh pertama sepertinya bukan dibuat oleh SoundStorm. Kedengarannya seperti dipaksakan dan termodulasi
Ini bukan komentar yang terlalu cerdas, tetapi sangat menyenangkan kalau semua sampelnya diputar bersamaan. Rasanya seperti Ableton Live versi HTML

SoundStorm: Pembuatan Audio Paralel yang Efisien

Cara kerja dan performa SoundStorm

Sintesis percakapan

Pembuatan dengan dan tanpa prompt

Perbandingan dengan model acuan

Dampak dan pertimbangan keamanan

Bacaan terkait

1 komentar

Pendapat Hacker News