- Model suara paling mumpuni dan interaktif yang dapat berbicara dengan suara atau aksen apa pun dalam lebih dari 30 bahasa dengan kecepatan dan akurasi terbaik di industri
- Juga merilis lebih dari 50 suara AI percakapan baru di berbagai bahasa
- Saat membangun aplikasi real-time menggunakan TTS, latensi, keandalan, kualitas audio, dan kealamian suara sangatlah penting
Play 3.0 mini adalah model suara percakapan tercepat hingga saat ini
- 3.0 mini mencapai latensi rata-rata 189 milidetik untuk TTFB, menjadikannya model AI Text to Speech tercepat
- Mendukung streaming input teks dari LLM dan streaming output audio, serta dapat digunakan melalui HTTP REST API, WebSocket API, atau SDK
- 3.0 mini juga lebih efisien dibanding Play 2.0, dengan kecepatan inferensi 28% lebih cepat
Play 3.0 mini mendukung semua suara dalam lebih dari 30 bahasa
- Play 3.0 mini kini secara default mendukung lebih dari 30 bahasa dengan berbagai opsi suara pria dan wanita
- Suara berbahasa Inggris, Jepang, Hindi, Arab, Spanyol, Italia, Jerman, Prancis, dan Portugis kini dapat digunakan untuk use case produksi dan tersedia di API serta playground
- Selain itu, Afrikaans, Bulgaria, Kroasia, Ceko, Ibrani, Hungaria, Indonesia, Melayu, Mandarin, Polandia, Serbia, Swedia, Tagalog, Thai, Turki, Ukraina, Urdu, dan Xhosa dapat diuji
Play 3.0 mini lebih akurat
- Tujuan Play 3.0 mini adalah membuat model TTS terbaik untuk AI percakapan
- Untuk mencapainya, model ini harus melampaui model pesaing dalam hal latensi dan akurasi sambil menghasilkan suara dengan nada percakapan yang paling alami
- LLM dapat berhalusinasi, dan voice LLM pun tidak berbeda. Halusinasi pada voice LLM dapat berupa kata atau angka tambahan maupun yang hilang dalam audio keluaran yang bukan bagian dari teks masukan
Play 3.0 mini membaca kombinasi alfabet dan angka dengan lebih alami
- Kami melatih model agar membaca angka dan inisial seperti manusia
- Model menyesuaikan kecepatan dan memperlambat semua karakter alfabet dan numerik
- Misalnya, nomor telepon dibacakan dengan kecepatan yang lebih alami, begitu juga semua inisial dan singkatan
- Ini membuat pengalaman percakapan secara keseluruhan menjadi lebih alami
Play 3.0 mini mencapai kemiripan suara terbaik untuk voice cloning
- Saat mengkloning suara, bunyi yang sekadar mirip sering kali tidak cukup
- Voice cloning Play 3.0 mencapai performa state-of-the-art saat mengkloning suara, dengan mereproduksi aksen, tone, dan intonasi suara hasil kloning secara akurat
- Dalam benchmark menggunakan model embedding open source yang populer, model ini jauh mengungguli model pesaing dalam hal kemiripan dengan suara asli
- Coba sendiri dengan mengkloning suara Anda di play.ai dan berbicara dengan diri Anda sendiri
Dukungan WebSocket API
- API 3.0 mini kini mendukung WebSocket, sehingga secara signifikan mengurangi overhead membuka dan menutup koneksi HTTP serta mempermudah aktivasi streaming input teks dari LLM atau sumber lainnya
Play 3.0 mini adalah model yang hemat biaya
- Kami dengan senang hati mengumumkan penurunan harga untuk startup dan growth tier dengan volume lebih tinggi, dan kini juga memperkenalkan tier Pro baru seharga $49 per bulan untuk perusahaan dengan kebutuhan yang lebih sederhana
- Lihat tabel harga baru di sini
- Kami menantikan apa yang akan Anda bangun bersama kami! Jika Anda memiliki kebutuhan volume besar yang disesuaikan, silakan hubungi tim sales
Opini GN+
- Upaya Play.ht untuk mengembangkan model suara paling andal bagi AI percakapan sangat mengesankan. Karena unggul dari pesaing dalam hal latensi dan akurasi serta menghasilkan suara percakapan yang paling alami, model ini tampaknya akan memimpin industri
- Dukungan untuk lebih dari 30 bahasa dan berbagai opsi suara merupakan langkah penting untuk menjangkau lebih banyak pengguna dan use case. Ini akan membantu adopsi AI suara yang lebih luas
- Namun, pertimbangan etis harus diingat saat mengadopsi teknologi ini. Misalnya, mengkloning suara seseorang tanpa persetujuan dapat menimbulkan masalah privasi. Selain itu, ada juga kemungkinan teknologi ini disalahgunakan untuk penyebaran misinformasi
- Proyek AI suara penting lain dengan fungsi serupa termasuk Tacotron dari Google dan WaveNet dari DeepMind. Model-model ini juga berfokus pada dukungan multibahasa dan suara sintetis yang alami
- Kesimpulannya, Play 3.0 mini menetapkan standar baru untuk teknologi suara dalam AI percakapan. Developer akan dapat memanfaatkan TTS yang cepat, akurat, dan alami untuk berbagai aplikasi real-time. Namun, pengaman yang kuat dan pedoman etis harus disiapkan untuk mencegah potensi penyalahgunaan teknologi ini
4 komentar
Tapi saat saya cek Playground, ternyata ada Korean lagi ya?
Lho, mendukung begitu banyak bahasa tapi malah tidak ada Korean huhu
Sayangnya sepertinya bahasa Korea masih belum didukung ya T_T
Opini Hacker News