- Eleven v3 (Alpha) adalah model text-to-speech (TTS) paling ekspresif yang pernah ada, dengan kemampuan mengontrol emosi dan efek suara secara presisi
- Dengan memanfaatkan audio tag, pengguna dapat menggabungkan berbagai elemen suara secara bebas seperti emosi, gaya bicara, arahan, dan efek suara
- Mendukung pembuatan audio percakapan alami dengan beberapa pembicara, serta suara yang mendekati manusia dalam lebih dari 70 bahasa
- Dibandingkan v2, cakupan emosi suara dan penerapan efek diperluas secara signifikan, dan pengguna UI bisa mendapatkan diskon 80% hingga akhir Juni 2025
- Dukungan API akan segera hadir, dan berbagai tag untuk suara serta situasi dapat dilihat di panduan prompt
Gambaran umum Eleven v3
- Eleven v3 (alpha) adalah model Text to Speech (TTS) generasi berikutnya yang berbeda dari versi sebelumnya, dengan kemampuan ekspresi emosi dan pembuatan suara yang imersif
- Model ini mengubah teks input menjadi suara sambil mengekspresikan emosi, intonasi, dan ritme dengan cara yang mirip seperti dibacakan langsung oleh manusia
- Pengguna dapat mengontrol secara rinci emosi suara, gaya bicara, efek audio, hingga suara latar dengan menggunakan audio tag
- Dengan menyisipkan tag emosi, efek, dan pengarahan di dalam teks, pengguna dapat membuat audio yang lebih berdimensi, melampaui narasi sederhana, sehingga imersi dan kesan realistis meningkat secara signifikan
Pembuatan percakapan multi-pembicara
- Mendukung pembuatan audio percakapan di mana beberapa pembicara secara alami berbagi konteks dan emosi
- Prosodi, emosi, dan tag tiap pembicara diterapkan untuk mewujudkan sintesis audio yang mendekati manusia
Dukungan suara multibahasa
- Secara resmi mendukung lebih dari 70 bahasa, termasuk Afrikaans, Arab, Jerman, Mandarin, dan Korea
- Meniru secara alami intonasi, pengucapan, dan aksen khas dari masing-masing bahasa
- Sangat berguna untuk berbagai bidang seperti layanan multinasional, konten pendidikan, dan proyek aksesibilitas global
Perbedaan utama antara v3 dan v2
- Dialogue Mode: mendukung percakapan multi-pembicara
- Dukungan Audio Tag: dapat memanfaatkan berbagai audio tag seperti emosi, arahan, dan efek
- Cakupan emosi dan efek: v2 mendukung tag dasar seperti jeda, sedangkan v3 mendukung emosi yang kaya dan efek audio
- Bahasa: v3 mendukung 70+ bahasa, v2 mendukung 29 bahasa
- Afrikaans, Arab, Armenia, Assam, Azerbaijan, Belarus, Bengali, Bosnia, Bulgaria, Katalan, Cebuano, Chichewa, Kroasia, Ceko, Denmark, Belanda, Inggris, Estonia, Filipino, Finlandia, Prancis, Galicia, Georgia, Jerman, Yunani, Gujarati, Hausa, Ibrani, Hindi, Hungaria, Islandia, Indonesia, Irlandia, Italia, Jepang, Jawa, Kannada, Kazakh, Kirgiz, Korea, Latvia, Lingala, Lituania, Luksemburg, Makedonia, Melayu, Malayalam, Mandarin Standar, Marathi, Nepal, Norwegia, Pashto, Persia, Polandia, Portugis, Punjabi, Rumania, Rusia, Serbia, Sindhi, Slowakia, Slovenia, Somalia, Spanyol, Swahili, Swedia, Tamil, Telugu, Thailand, Turki, Ukraina, Urdu, Vietnam, Welsh, dan lain-lain
Kualitas suara dan pengalaman pengguna
- Saat melakukan sintesis suara, model ini mampu menghasilkan file audio berkualitas tinggi dengan noise rendah dan resolusi tinggi
- Penyesuaian rinci seperti panjang kalimat, perubahan nuansa emosi, dan kecepatan bicara dapat dilakukan dengan mudah, sehingga pembuatan suara kustom menjadi sederhana
- Dapat mengekspresikan emosi dinamis dan gaya ujaran yang sulit direproduksi oleh solusi TTS sebelumnya
Daya saing dan potensi penerapan
- Kreator konten, developer, dan perusahaan dapat langsung menerapkannya pada audiobook, game, iklan, dan layanan peningkatan aksesibilitas
- Dengan satu model, layanan multibahasa dan multiguna dapat dijalankan sehingga menghemat biaya dan waktu
- Bahkan pada tahap open alpha, model ini sudah mencapai kualitas dan keragaman suara pada tingkat layak diterapkan ke layanan nyata
Diskon dan dukungan API
- Pengguna UI dapat menggunakan v3 alpha dengan diskon 80% hingga akhir Juni 2025
- API akan segera dirilis
Kesimpulan
- Eleven v3 adalah model terbaru di bidang teknologi Text to Speech yang memperkuat kemampuan ekspresivitas, dukungan multibahasa, dan suara kustom
- Model ini dapat merespons secara efektif meningkatnya permintaan teknologi pembuatan suara alami di berbagai industri
2 komentar
Masih alpha, tapi bagus..
Terima kasih atas informasinya.
Opini Hacker News
Saya tidak melihat penyebutan soal bernyanyi di dokumentasi atau panduan prompt, jadi jadi penasaran apakah model ini memang dari awal bisa dipakai untuk bernyanyi
Iseng saya masukkan lirik lagu tema Friends ke demo, dan hasilnya keluar sebagai suara bernyanyi dengan iringan gitar
Dalam eksperimen lain, ketika saya menambahkan label [verse] dan [chorus], modelnya menyanyikannya dalam versi a cappella
[1] dan [2] hanya memasukkan lirik, sedangkan [3] memakai tag verse/chorus
Saya juga mengujinya dengan lagu populer lain, tetapi entah kenapa tidak masuk ke mode nyanyi sebersih ini
Menarik sekali bahwa hasilnya bernyanyi, tetapi kualitas nyanyiannya sendiri sangat buruk sehingga justru makin menarik
Rasanya seperti orang yang benar-benar tidak bisa menyanyi
Karena hasilnya cukup berbeda dari opening Friends yang asli, dugaan saya ini bukan sekadar hasil overfitting pada pola yang familiar dan umum muncul di data pelatihan
Mirage AI menghasilkan kualitas nyanyian yang lumayan bagus
Saya ingat pernah melihat bahwa demo model ini juga menyertakan nyanyian
Jadi saya menduga fitur ini memang tertanam di dalamnya
Menariknya, ketika saya bereksperimen dengan prompt seperti di bawah ini, model tampaknya agak kesulitan di bagian terakhir, yaitu "purr"
Akhir-akhir ini saya cukup banyak memakai model baru OpenAI dalam penggunaan nyata (openai.fm)
Pendekatannya yang memisahkan instruksi dan teks ujaran cukup unik, dan mungkin pihak OpenAI sudah lama banyak memakai konsep "instructions" di seluruh produknya, jadi mereka terasa lebih terbiasa dengan pendekatan ini dalam pelatihan dan pembuatan data
Cara pemisahan instruksi ini memang terasa agak canggung, tetapi kelebihannya adalah lebih mudah mencampurkan instruksi umum dan instruksi untuk situasi tertentu
Misalnya, Anda bisa menambahkan instruksi umum seperti "suara rendah dan dalam dengan aksen Inggris", lalu menggabungkannya dengan arahan spesifik seperti merendahkan suara menjadi bisikan dan memberi sedikit nuansa takut setelah kalimat "but actually"
Hasil OpenAI terasa lebih tidak dapat diprediksi dibanding Eleven Labs dan kesan kualitas produksinya juga sedikit lebih rendah
Namun, rentang prosody-nya jauh lebih luas, malah terkesan terlalu berusaha
Jenis suaranya juga terasa lebih sedikit dibanding Eleven Labs, dan ketika diminta beberapa gaya berbeda, hasilnya sedikit terasa seperti "orang yang sama menirukan suara lain"
Tetapi keunggulan mutlak OpenAI adalah harganya sekitar 10 kali lebih murah dan penagihannya benar-benar berbasis penggunaan
(Layanan TTS yang mewajibkan langganan bulanan atau kredit top-up tambahan itu benar-benar tidak efisien)
Alasan saya tidak memakai ElevenLabs dan memilih solusi lain meskipun kualitasnya lebih rendah adalah karena saya hanya ingin memakai sesuai kebutuhan, tetapi saya tidak suka model langganan yang menagih per bongkah bulanan lalu kalau habis harus membeli bongkah yang lebih besar lagi
Menurut saya kebijakan harga seperti ini sangat buruk
Saya rasa saya akan merasa terhina kalau mesin merespons dengan kalimat seperti "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating."
Saya hanya ingin dibantu, dan kalau mesin mempermainkan emosi saya seperti itu, menurut saya itu masa depan yang mengerikan
Jawaban seperti itu saja sudah menjengkelkan kalau datang dari sesama manusia, dan saya juga tidak ingin mendengarnya dari AI
Saya memang tidak menikmati berbicara dengan komputer, jadi saya sama sekali tidak memakai antarmuka suara ala Siri
Saya juga tidak menginginkan mesin yang berbicara seperti manusia
Cukup seperti komputer di Star Trek yang menjawab "sedang dikerjakan..." lalu memberi hasil
Tidak usah basa-basi, langsung ke inti saja
Bahkan kalau saya menaruh sekitar lima kalimat di profil ChatGPT saya yang melarang semua komentar tambahan seperti validasi atau empati, tetap saja setiap kali saya mendapat jawaban seperti "kekhawatiran Anda valid", dan tidak ada yang berubah
Saya penasaran apakah komentar usil khas Amerika seperti "champ" atau "bud" juga terasa natural di Eropa atau Australia
Dialognya mirip film Her, dan suaranya sangat mendekati Scarlett Johansson, jadi saya merasa suara ini mungkin terinspirasi dari sana
Bercanda soal kasus halusinasi yang memberi tautan yang sebenarnya tidak ada sambil berkata hal seperti "umumnya saya bisa membantu soal itu" atau "saya akan carikan nomor pesanan Anda sekarang"
Mungkin bukan masalah yang penting, tetapi saya menemukan hal yang lucu
Setelah bahasa diatur ke bahasa Jepang, lalu memasukkan
Kalau dipikir serius, saat mencoba banyak bahasa sekaligus, rasanya bahasa input dinormalisasi lebih awal dalam proses model
Artinya, entah prompt ditulis dalam bahasa Inggris atau bahasa Jepang, hasilnya tidak terlalu berbeda
Saya jadi penasaran apakah system prompt bekerja berbeda di sini
Saya tinggalkan informasi ini untuk yang penasaran
Model ini berbasis tortoise-tts-fast
Pengembang proyek ini kemudian direkrut oleh Eleven Labs
Bukan sekadar "direkrut"; sebenarnya dia sudah keluar dari perusahaan 6 bulan sebelum rilis v3
Klaim sebelumnya (bahwa basis proyek ini berarti berkaitan langsung dengan perekrutan oleh Eleven Labs) tidak menunjukkan hubungan sebab-akibat
Suara bahasa Inggris (aksen Amerika) benar-benar luar biasa, tetapi bagian tag tawa terasa seperti penyisipan segmen terpisah semacam "tertawa di sini", jadi bukan tawa sesaat yang alami dalam alur ucapan, melainkan seperti potongan yang dipaksa masuk
Misalnya, bagian yang seharusnya diucapkan sambil tertawa di tengah kata masih terasa canggung
Jika teksnya diedit agar tawa muncul di tempat yang secara konteks memang alami, hasilnya jauh lebih natural, jadi saya merekomendasikan melihat contoh ini
Harganya masih mahal, jadi masih banyak peluang bagi layanan pesaing
ElevenLabs memang masih pemimpin dari sisi kualitas, tetapi para pesaing juga mengejar dengan cepat
Khususnya lab dan perusahaan AI dari China juga merilis model TTS open source penuh, yang pada akhirnya ikut mempercepat perubahan ekosistem bahkan dari sudut pandang perusahaan AS
Fenomena ini pada akhirnya menguntungkan pengguna
PlayHT yang didanai Y Combinator juga merilis banyak fitur bagus
Hasilnya benar-benar luar biasa, sampai 99% tidak bisa dibedakan dari pengisi suara profesional
Saya tidak menemukan informasi harga, apakah ada yang tahu?
Saya melihat pengumuman bahwa API publik untuk Eleven v3 (alpha) akan segera dirilis
Untuk ikut early access atau konsultasi harga, tertulis agar menghubungi tim sales
Sepertinya bahkan perusahaan itu sendiri belum menetapkan harga final dan ingin mengukur permintaan terlebih dahulu
Wow... saya pengisi suara profesional
Tetap saja itu hanya "AI", bukan manusia sungguhan
Musik, audiobook, puisi, novel, drama, dan hal-hal semacam itu tetap perlu didengar dari manusia sungguhan yang benar-benar berbicara sendiri
Di situlah letak kenikmatan esensial yang saya cari
Ini mungkin agak di luar topik (meski masih ada kaitannya dengan TTS...), tetapi kata 'eleven' mengingatkan saya pada video komedi pengenalan suara lift beraksen Skotlandia
Video komedi Elevator Voice Recognition
Saya rasa saya belum melihat sampel beraksen Inggris British
Secara umum, sistem TTS tampaknya hanya menangani aksen Amerika, dan aksen Inggrisnya terdengar seperti "orang Amerika menirukan aksen British" ala Frasier
Dalam pustaka suara kami ada banyak suara British yang beragam
Atau, jika menambahkan "[British accent]" di awal prompt, hasilnya akan menjadi seperti orang Amerika yang menirukan aksen British
Persoalan aksen Frasier Crane sendiri bisa diperdebatkan, karena itu adalah aktor Amerika yang memerankan karakter Amerika dengan aksen yang, tergantung situasinya, terdengar Amerika tetapi juga transatlantic atau Boston Brahmin, atau campuran keduanya
Kedua aksen itu memang meminjam sebagian ciri yang mirip dengan aksen British
Sebagai catatan, aksen ala Frasier bukan "menirukan British", melainkan lebih ke aksen Boston Brahmin/transatlantic
Suara beraksen di ElevenLabs v2 masih jauh lebih unggul dibanding pesaing
Saya sudah memakainya langsung dalam berbagai bahasa seperti Arab, Prancis, Hindi, dan Inggris
Bahasa Inggrisnya benar-benar terdengar fantastis, selamat
Namun, bahasa-bahasa lain yang saya coba masih menyisakan aksen Inggris yang kuat
Dalam bahasa Italia, awalnya terdengar seperti aksen Amerika yang benar-benar komikal, lalu setelah sekitar 10~20 kata tiba-tiba berubah menjadi pengucapan Italia yang sungguhan
Saya memakai suara Alice, dan rasanya secara internal model memulai dari basis en-us lalu cepat menyesuaikan ke bahasa yang disetel
Saya penasaran apa yang sebenarnya terjadi di balik layar
Bahasa Prancis terdengar seperti aksen orang Alabama yang sempat belajar bahasa Prancis sebentar saat kuliah
Tetapi bahasa Inggrisnya memang sangat bagus
Untuk bahasa Portugis, menariknya suara Liam justru beraksen Spanyol
Ikon bahasanya menunjukkan Portugis, tetapi cara pengucapannya jelas Portugis Brasil
Bahasa Swedia terdengar sepenuhnya seperti orang Amerika
Saya sarankan mencoba suara yang memang dilatih berbasis bahasa tersebut
Pratinjau riset kali ini performanya belum merata, dan kualitasnya sangat bergantung pada pilihan suara