Play 3.0 Mini diperkenalkan - model Text-To-Speech multibahasa yang ringan dan hemat biaya

Model suara paling mumpuni dan interaktif yang dapat berbicara dengan suara atau aksen apa pun dalam lebih dari 30 bahasa dengan kecepatan dan akurasi terbaik di industri
- Juga merilis lebih dari 50 suara AI percakapan baru di berbagai bahasa
Saat membangun aplikasi real-time menggunakan TTS, latensi, keandalan, kualitas audio, dan kealamian suara sangatlah penting

Play 3.0 mini adalah model suara percakapan tercepat hingga saat ini

3.0 mini mencapai latensi rata-rata 189 milidetik untuk TTFB, menjadikannya model AI Text to Speech tercepat
Mendukung streaming input teks dari LLM dan streaming output audio, serta dapat digunakan melalui HTTP REST API, WebSocket API, atau SDK
3.0 mini juga lebih efisien dibanding Play 2.0, dengan kecepatan inferensi 28% lebih cepat

Play 3.0 mini kini secara default mendukung lebih dari 30 bahasa dengan berbagai opsi suara pria dan wanita
Suara berbahasa Inggris, Jepang, Hindi, Arab, Spanyol, Italia, Jerman, Prancis, dan Portugis kini dapat digunakan untuk use case produksi dan tersedia di API serta playground
Selain itu, Afrikaans, Bulgaria, Kroasia, Ceko, Ibrani, Hungaria, Indonesia, Melayu, Mandarin, Polandia, Serbia, Swedia, Tagalog, Thai, Turki, Ukraina, Urdu, dan Xhosa dapat diuji

Tujuan Play 3.0 mini adalah membuat model TTS terbaik untuk AI percakapan
Untuk mencapainya, model ini harus melampaui model pesaing dalam hal latensi dan akurasi sambil menghasilkan suara dengan nada percakapan yang paling alami
LLM dapat berhalusinasi, dan voice LLM pun tidak berbeda. Halusinasi pada voice LLM dapat berupa kata atau angka tambahan maupun yang hilang dalam audio keluaran yang bukan bagian dari teks masukan

Kami melatih model agar membaca angka dan inisial seperti manusia
Model menyesuaikan kecepatan dan memperlambat semua karakter alfabet dan numerik
Misalnya, nomor telepon dibacakan dengan kecepatan yang lebih alami, begitu juga semua inisial dan singkatan
Ini membuat pengalaman percakapan secara keseluruhan menjadi lebih alami

Saat mengkloning suara, bunyi yang sekadar mirip sering kali tidak cukup
Voice cloning Play 3.0 mencapai performa state-of-the-art saat mengkloning suara, dengan mereproduksi aksen, tone, dan intonasi suara hasil kloning secara akurat
Dalam benchmark menggunakan model embedding open source yang populer, model ini jauh mengungguli model pesaing dalam hal kemiripan dengan suara asli
Coba sendiri dengan mengkloning suara Anda di play.ai dan berbicara dengan diri Anda sendiri

API 3.0 mini kini mendukung WebSocket, sehingga secara signifikan mengurangi overhead membuka dan menutup koneksi HTTP serta mempermudah aktivasi streaming input teks dari LLM atau sumber lainnya

Kami dengan senang hati mengumumkan penurunan harga untuk startup dan growth tier dengan volume lebih tinggi, dan kini juga memperkenalkan tier Pro baru seharga $49 per bulan untuk perusahaan dengan kebutuhan yang lebih sederhana
Lihat tabel harga baru di sini
Kami menantikan apa yang akan Anda bangun bersama kami! Jika Anda memiliki kebutuhan volume besar yang disesuaikan, silakan hubungi tim sales

Upaya Play.ht untuk mengembangkan model suara paling andal bagi AI percakapan sangat mengesankan. Karena unggul dari pesaing dalam hal latensi dan akurasi serta menghasilkan suara percakapan yang paling alami, model ini tampaknya akan memimpin industri
Dukungan untuk lebih dari 30 bahasa dan berbagai opsi suara merupakan langkah penting untuk menjangkau lebih banyak pengguna dan use case. Ini akan membantu adopsi AI suara yang lebih luas
Namun, pertimbangan etis harus diingat saat mengadopsi teknologi ini. Misalnya, mengkloning suara seseorang tanpa persetujuan dapat menimbulkan masalah privasi. Selain itu, ada juga kemungkinan teknologi ini disalahgunakan untuk penyebaran misinformasi
Proyek AI suara penting lain dengan fungsi serupa termasuk Tacotron dari Google dan WaveNet dari DeepMind. Model-model ini juga berfokus pada dukungan multibahasa dan suara sintetis yang alami
Kesimpulannya, Play 3.0 mini menetapkan standar baru untuk teknologi suara dalam AI percakapan. Developer akan dapat memanfaatkan TTS yang cepat, akurat, dan alami untuk berbagai aplikasi real-time. Namun, pengaman yang kuat dan pedoman etis harus disiapkan untuk mencegah potensi penyalahgunaan teknologi ini