23 poin oleh GN⁺ 2024-11-03 | 4 komentar | Bagikan ke WhatsApp
  • Model suara paling mumpuni dan interaktif yang dapat berbicara dengan suara atau aksen apa pun dalam lebih dari 30 bahasa dengan kecepatan dan akurasi terbaik di industri
    • Juga merilis lebih dari 50 suara AI percakapan baru di berbagai bahasa
  • Saat membangun aplikasi real-time menggunakan TTS, latensi, keandalan, kualitas audio, dan kealamian suara sangatlah penting

Play 3.0 mini adalah model suara percakapan tercepat hingga saat ini

  • 3.0 mini mencapai latensi rata-rata 189 milidetik untuk TTFB, menjadikannya model AI Text to Speech tercepat
  • Mendukung streaming input teks dari LLM dan streaming output audio, serta dapat digunakan melalui HTTP REST API, WebSocket API, atau SDK
  • 3.0 mini juga lebih efisien dibanding Play 2.0, dengan kecepatan inferensi 28% lebih cepat

Play 3.0 mini mendukung semua suara dalam lebih dari 30 bahasa

  • Play 3.0 mini kini secara default mendukung lebih dari 30 bahasa dengan berbagai opsi suara pria dan wanita
  • Suara berbahasa Inggris, Jepang, Hindi, Arab, Spanyol, Italia, Jerman, Prancis, dan Portugis kini dapat digunakan untuk use case produksi dan tersedia di API serta playground
  • Selain itu, Afrikaans, Bulgaria, Kroasia, Ceko, Ibrani, Hungaria, Indonesia, Melayu, Mandarin, Polandia, Serbia, Swedia, Tagalog, Thai, Turki, Ukraina, Urdu, dan Xhosa dapat diuji

Play 3.0 mini lebih akurat

  • Tujuan Play 3.0 mini adalah membuat model TTS terbaik untuk AI percakapan
  • Untuk mencapainya, model ini harus melampaui model pesaing dalam hal latensi dan akurasi sambil menghasilkan suara dengan nada percakapan yang paling alami
  • LLM dapat berhalusinasi, dan voice LLM pun tidak berbeda. Halusinasi pada voice LLM dapat berupa kata atau angka tambahan maupun yang hilang dalam audio keluaran yang bukan bagian dari teks masukan

Play 3.0 mini membaca kombinasi alfabet dan angka dengan lebih alami

  • Kami melatih model agar membaca angka dan inisial seperti manusia
  • Model menyesuaikan kecepatan dan memperlambat semua karakter alfabet dan numerik
  • Misalnya, nomor telepon dibacakan dengan kecepatan yang lebih alami, begitu juga semua inisial dan singkatan
  • Ini membuat pengalaman percakapan secara keseluruhan menjadi lebih alami

Play 3.0 mini mencapai kemiripan suara terbaik untuk voice cloning

  • Saat mengkloning suara, bunyi yang sekadar mirip sering kali tidak cukup
  • Voice cloning Play 3.0 mencapai performa state-of-the-art saat mengkloning suara, dengan mereproduksi aksen, tone, dan intonasi suara hasil kloning secara akurat
  • Dalam benchmark menggunakan model embedding open source yang populer, model ini jauh mengungguli model pesaing dalam hal kemiripan dengan suara asli
  • Coba sendiri dengan mengkloning suara Anda di play.ai dan berbicara dengan diri Anda sendiri

Dukungan WebSocket API

  • API 3.0 mini kini mendukung WebSocket, sehingga secara signifikan mengurangi overhead membuka dan menutup koneksi HTTP serta mempermudah aktivasi streaming input teks dari LLM atau sumber lainnya

Play 3.0 mini adalah model yang hemat biaya

  • Kami dengan senang hati mengumumkan penurunan harga untuk startup dan growth tier dengan volume lebih tinggi, dan kini juga memperkenalkan tier Pro baru seharga $49 per bulan untuk perusahaan dengan kebutuhan yang lebih sederhana
  • Lihat tabel harga baru di sini
  • Kami menantikan apa yang akan Anda bangun bersama kami! Jika Anda memiliki kebutuhan volume besar yang disesuaikan, silakan hubungi tim sales

Opini GN+

  • Upaya Play.ht untuk mengembangkan model suara paling andal bagi AI percakapan sangat mengesankan. Karena unggul dari pesaing dalam hal latensi dan akurasi serta menghasilkan suara percakapan yang paling alami, model ini tampaknya akan memimpin industri
  • Dukungan untuk lebih dari 30 bahasa dan berbagai opsi suara merupakan langkah penting untuk menjangkau lebih banyak pengguna dan use case. Ini akan membantu adopsi AI suara yang lebih luas
  • Namun, pertimbangan etis harus diingat saat mengadopsi teknologi ini. Misalnya, mengkloning suara seseorang tanpa persetujuan dapat menimbulkan masalah privasi. Selain itu, ada juga kemungkinan teknologi ini disalahgunakan untuk penyebaran misinformasi
  • Proyek AI suara penting lain dengan fungsi serupa termasuk Tacotron dari Google dan WaveNet dari DeepMind. Model-model ini juga berfokus pada dukungan multibahasa dan suara sintetis yang alami
  • Kesimpulannya, Play 3.0 mini menetapkan standar baru untuk teknologi suara dalam AI percakapan. Developer akan dapat memanfaatkan TTS yang cepat, akurat, dan alami untuk berbagai aplikasi real-time. Namun, pengaman yang kuat dan pedoman etis harus disiapkan untuk mencegah potensi penyalahgunaan teknologi ini

4 komentar

 
dane1 2024-11-04

Tapi saat saya cek Playground, ternyata ada Korean lagi ya?

 
dane1 2024-11-04

Lho, mendukung begitu banyak bahasa tapi malah tidak ada Korean huhu

 
hmmhmmhm 2024-11-03

Sayangnya sepertinya bahasa Korea masih belum didukung ya T_T

 
GN⁺ 2024-11-03

Opini Hacker News

  • Model TTS open source yang baru dirilis belakangan ini menawarkan kemampuan kloning suara yang sangat baik. Dapat dijalankan di GPU NVIDIA dengan VRAM 10G.
  • Uji coba langsung di Firefox tidak berfungsi, tetapi setelah beralih ke Chrome langsung bekerja dengan cepat. Dalam 30 detik, saya bisa mengkloning suara saya sendiri dan bercakap-cakap dengannya. Kualitasnya cukup halus untuk menipu kebanyakan orang.
  • Model ini lebih mahal dibanding API TTS dari Cartesia dan OpenAI. Secara umum, API TTS beroperasi dengan margin yang lebih tinggi daripada LLM.
  • Untuk bahasa selain Inggris, fitur transkripsi tidak terlalu berguna. Jika transkripsinya akurat, terjemahan dan respons suara menjadi sangat cepat, tetapi jika transkripsinya buruk, maka praktis tidak berguna.
  • Selama musim panas saya menulis klien API untuk Go dan Rust. Saat itu saya menggunakan Play di tempat kerja, tetapi yang tersedia hanya SDK Python dan Node.
  • Percakapan latensi rendah dengan suara yang mirip dengan suara sendiri bisa terasa agak mengganggu. Namun, ini juga pengalaman yang sangat menggugah pemikiran.
  • Suara hasil kloning terdengar sangat mirip, tetapi dalam uji buta, kelima orang tidak mengenalinya sebagai suara saya sendiri. Saya jadi bertanya-tanya apakah ada bias saat mendengar suara diri sendiri.
  • Model OpenAI tidak bekerja dengan baik dalam pelafalan angka. Saya terkejut ada model TTS yang dirilis pada 2024 tetapi masih tidak bisa melafalkan angka dengan benar. Saya percaya model TTS baru setidaknya harus divalidasi sampai angka 100.000.