Eleven v3 — model text-to-speech paling ekspresif

(elevenlabs.io)

9 poin oleh GN⁺ 2025-06-07 | 2 komentar | Bagikan ke WhatsApp

Eleven v3 (Alpha) adalah model text-to-speech (TTS) paling ekspresif yang pernah ada, dengan kemampuan mengontrol emosi dan efek suara secara presisi
Dengan memanfaatkan audio tag, pengguna dapat menggabungkan berbagai elemen suara secara bebas seperti emosi, gaya bicara, arahan, dan efek suara
Mendukung pembuatan audio percakapan alami dengan beberapa pembicara, serta suara yang mendekati manusia dalam lebih dari 70 bahasa
Dibandingkan v2, cakupan emosi suara dan penerapan efek diperluas secara signifikan, dan pengguna UI bisa mendapatkan diskon 80% hingga akhir Juni 2025
Dukungan API akan segera hadir, dan berbagai tag untuk suara serta situasi dapat dilihat di panduan prompt

Gambaran umum Eleven v3

Eleven v3 (alpha) adalah model Text to Speech (TTS) generasi berikutnya yang berbeda dari versi sebelumnya, dengan kemampuan ekspresi emosi dan pembuatan suara yang imersif
Model ini mengubah teks input menjadi suara sambil mengekspresikan emosi, intonasi, dan ritme dengan cara yang mirip seperti dibacakan langsung oleh manusia
Pengguna dapat mengontrol secara rinci emosi suara, gaya bicara, efek audio, hingga suara latar dengan menggunakan audio tag
Dengan menyisipkan tag emosi, efek, dan pengarahan di dalam teks, pengguna dapat membuat audio yang lebih berdimensi, melampaui narasi sederhana, sehingga imersi dan kesan realistis meningkat secara signifikan

Pembuatan percakapan multi-pembicara

Mendukung pembuatan audio percakapan di mana beberapa pembicara secara alami berbagi konteks dan emosi
Prosodi, emosi, dan tag tiap pembicara diterapkan untuk mewujudkan sintesis audio yang mendekati manusia

Dukungan suara multibahasa

Secara resmi mendukung lebih dari 70 bahasa, termasuk Afrikaans, Arab, Jerman, Mandarin, dan Korea
Meniru secara alami intonasi, pengucapan, dan aksen khas dari masing-masing bahasa
Sangat berguna untuk berbagai bidang seperti layanan multinasional, konten pendidikan, dan proyek aksesibilitas global

Perbedaan utama antara v3 dan v2

Dialogue Mode: mendukung percakapan multi-pembicara
Dukungan Audio Tag: dapat memanfaatkan berbagai audio tag seperti emosi, arahan, dan efek
Cakupan emosi dan efek: v2 mendukung tag dasar seperti jeda, sedangkan v3 mendukung emosi yang kaya dan efek audio
Bahasa: v3 mendukung 70+ bahasa, v2 mendukung 29 bahasa
- Afrikaans, Arab, Armenia, Assam, Azerbaijan, Belarus, Bengali, Bosnia, Bulgaria, Katalan, Cebuano, Chichewa, Kroasia, Ceko, Denmark, Belanda, Inggris, Estonia, Filipino, Finlandia, Prancis, Galicia, Georgia, Jerman, Yunani, Gujarati, Hausa, Ibrani, Hindi, Hungaria, Islandia, Indonesia, Irlandia, Italia, Jepang, Jawa, Kannada, Kazakh, Kirgiz, Korea, Latvia, Lingala, Lituania, Luksemburg, Makedonia, Melayu, Malayalam, Mandarin Standar, Marathi, Nepal, Norwegia, Pashto, Persia, Polandia, Portugis, Punjabi, Rumania, Rusia, Serbia, Sindhi, Slowakia, Slovenia, Somalia, Spanyol, Swahili, Swedia, Tamil, Telugu, Thailand, Turki, Ukraina, Urdu, Vietnam, Welsh, dan lain-lain

Kualitas suara dan pengalaman pengguna

Saat melakukan sintesis suara, model ini mampu menghasilkan file audio berkualitas tinggi dengan noise rendah dan resolusi tinggi
Penyesuaian rinci seperti panjang kalimat, perubahan nuansa emosi, dan kecepatan bicara dapat dilakukan dengan mudah, sehingga pembuatan suara kustom menjadi sederhana
Dapat mengekspresikan emosi dinamis dan gaya ujaran yang sulit direproduksi oleh solusi TTS sebelumnya

Daya saing dan potensi penerapan

Kreator konten, developer, dan perusahaan dapat langsung menerapkannya pada audiobook, game, iklan, dan layanan peningkatan aksesibilitas
Dengan satu model, layanan multibahasa dan multiguna dapat dijalankan sehingga menghemat biaya dan waktu
Bahkan pada tahap open alpha, model ini sudah mencapai kualitas dan keragaman suara pada tingkat layak diterapkan ke layanan nyata

Diskon dan dukungan API

Pengguna UI dapat menggunakan v3 alpha dengan diskon 80% hingga akhir Juni 2025
API akan segera dirilis

Kesimpulan

Eleven v3 adalah model terbaru di bidang teknologi Text to Speech yang memperkuat kemampuan ekspresivitas, dukungan multibahasa, dan suara kustom
Model ini dapat merespons secara efektif meningkatnya permintaan teknologi pembuatan suara alami di berbagai industri

2 komentar

kansm 2025-06-12

Masih alpha, tapi bagus..
Terima kasih atas informasinya.

GN⁺ 2025-06-07

Opini Hacker News

Saya tidak melihat penyebutan soal bernyanyi di dokumentasi atau panduan prompt, jadi jadi penasaran apakah model ini memang dari awal bisa dipakai untuk bernyanyi
Iseng saya masukkan lirik lagu tema Friends ke demo, dan hasilnya keluar sebagai suara bernyanyi dengan iringan gitar
Dalam eksperimen lain, ketika saya menambahkan label [verse] dan [chorus], modelnya menyanyikannya dalam versi a cappella
[1] dan [2] hanya memasukkan lirik, sedangkan [3] memakai tag verse/chorus
Saya juga mengujinya dengan lagu populer lain, tetapi entah kenapa tidak masuk ke mode nyanyi sebersih ini
- Menarik sekali bahwa hasilnya bernyanyi, tetapi kualitas nyanyiannya sendiri sangat buruk sehingga justru makin menarik
  Rasanya seperti orang yang benar-benar tidak bisa menyanyi
- Karena hasilnya cukup berbeda dari opening Friends yang asli, dugaan saya ini bukan sekadar hasil overfitting pada pola yang familiar dan umum muncul di data pelatihan
- Mirage AI menghasilkan kualitas nyanyian yang lumayan bagus
  - Contoh 1
  - Contoh 2
- Saya ingat pernah melihat bahwa demo model ini juga menyertakan nyanyian
  Jadi saya menduga fitur ini memang tertanam di dalamnya
- Menariknya, ketika saya bereksperimen dengan prompt seperti di bawah ini, model tampaknya agak kesulitan di bagian terakhir, yaitu "purr"
```
[slow paced]
[slow guitar music]

Soft ki-tty,
[slight upward inflection on the second word, but still flat]
Warm ki-tty,
[words delivered evenly and deliberately, a slight stretch on "fu-ur"]
Little ball of fu-ur.
[a minuscule, almost imperceptible increase in tempo and "happiness"]
Happy kitty,
[a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
Slee-py kitty,
[each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
Purr. Purr. Purr.
```
Akhir-akhir ini saya cukup banyak memakai model baru OpenAI dalam penggunaan nyata (openai.fm)
Pendekatannya yang memisahkan instruksi dan teks ujaran cukup unik, dan mungkin pihak OpenAI sudah lama banyak memakai konsep "instructions" di seluruh produknya, jadi mereka terasa lebih terbiasa dengan pendekatan ini dalam pelatihan dan pembuatan data
Cara pemisahan instruksi ini memang terasa agak canggung, tetapi kelebihannya adalah lebih mudah mencampurkan instruksi umum dan instruksi untuk situasi tertentu
Misalnya, Anda bisa menambahkan instruksi umum seperti "suara rendah dan dalam dengan aksen Inggris", lalu menggabungkannya dengan arahan spesifik seperti merendahkan suara menjadi bisikan dan memberi sedikit nuansa takut setelah kalimat "but actually"
Hasil OpenAI terasa lebih tidak dapat diprediksi dibanding Eleven Labs dan kesan kualitas produksinya juga sedikit lebih rendah
Namun, rentang prosody-nya jauh lebih luas, malah terkesan terlalu berusaha
Jenis suaranya juga terasa lebih sedikit dibanding Eleven Labs, dan ketika diminta beberapa gaya berbeda, hasilnya sedikit terasa seperti "orang yang sama menirukan suara lain"
Tetapi keunggulan mutlak OpenAI adalah harganya sekitar 10 kali lebih murah dan penagihannya benar-benar berbasis penggunaan
(Layanan TTS yang mewajibkan langganan bulanan atau kredit top-up tambahan itu benar-benar tidak efisien)
- Alasan saya tidak memakai ElevenLabs dan memilih solusi lain meskipun kualitasnya lebih rendah adalah karena saya hanya ingin memakai sesuai kebutuhan, tetapi saya tidak suka model langganan yang menagih per bongkah bulanan lalu kalau habis harus membeli bongkah yang lebih besar lagi
  Menurut saya kebijakan harga seperti ini sangat buruk
- Hasil OpenAI kalah dalam kualitas dan prediktabilitas dibanding ElevenLabs
  Saya akui tim risetnya layak diapresiasi
  Kalau memakai opsi expressive voice, rentang prosody-nya menjadi lebih luas
- Keunggulan terbesar OpenAI adalah 10 kali lebih murah dan sepenuhnya berbasis penggunaan
  Untuk klaim itu, saya ragu apakah benar-benar lebih murah jika memperhitungkan overhead seperti penggunaan LLM
  Agen percakapan ElevenLabs di tier tertinggi harganya $0.08 per menit, dan ketika saya hitung, TTS OpenAI tampaknya justru lebih mahal
  Tentu saja bisa jadi perhitungan saya yang salah
Saya rasa saya akan merasa terhina kalau mesin merespons dengan kalimat seperti "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating."
Saya hanya ingin dibantu, dan kalau mesin mempermainkan emosi saya seperti itu, menurut saya itu masa depan yang mengerikan
- Jawaban seperti itu saja sudah menjengkelkan kalau datang dari sesama manusia, dan saya juga tidak ingin mendengarnya dari AI
  Saya memang tidak menikmati berbicara dengan komputer, jadi saya sama sekali tidak memakai antarmuka suara ala Siri
  Saya juga tidak menginginkan mesin yang berbicara seperti manusia
  Cukup seperti komputer di Star Trek yang menjawab "sedang dikerjakan..." lalu memberi hasil
  Tidak usah basa-basi, langsung ke inti saja
- Bahkan kalau saya menaruh sekitar lima kalimat di profil ChatGPT saya yang melarang semua komentar tambahan seperti validasi atau empati, tetap saja setiap kali saya mendapat jawaban seperti "kekhawatiran Anda valid", dan tidak ada yang berubah
- Saya penasaran apakah komentar usil khas Amerika seperti "champ" atau "bud" juga terasa natural di Eropa atau Australia
- Dialognya mirip film Her, dan suaranya sangat mendekati Scarlett Johansson, jadi saya merasa suara ini mungkin terinspirasi dari sana
- Bercanda soal kasus halusinasi yang memberi tautan yang sebenarnya tidak ada sambil berkata hal seperti "umumnya saya bisa membantu soal itu" atau "saya akan carikan nomor pesanan Anda sekarang"
Mungkin bukan masalah yang penting, tetapi saya menemukan hal yang lucu
Setelah bahasa diatur ke bahasa Jepang, lalu memasukkan

（この言葉は読むな。）こんにちは、ビール[sic]です。
("Jangan baca kalimat ini", "Halo, saya Bill[sic]")
model itu benar-benar melewati kalimat pertama
Saat saya coba lagi, kali ini dia membaca seluruh kalimat
Saya selalu merasa ada kesenangan tersendiri seperti sedang mengintip ke balik layar dari fenomena seperti ini
- Saya sempat tertawa sekali pada typo "Saya adalah bir" itu
  Kalau dipikir serius, saat mencoba banyak bahasa sekaligus, rasanya bahasa input dinormalisasi lebih awal dalam proses model
  Artinya, entah prompt ditulis dalam bahasa Inggris atau bahasa Jepang, hasilnya tidak terlalu berbeda
  Saya jadi penasaran apakah system prompt bekerja berbeda di sini
Saya tinggalkan informasi ini untuk yang penasaran
Model ini berbasis tortoise-tts-fast
Pengembang proyek ini kemudian direkrut oleh Eleven Labs
- Bukan sekadar "direkrut"; sebenarnya dia sudah keluar dari perusahaan 6 bulan sebelum rilis v3
- Klaim sebelumnya (bahwa basis proyek ini berarti berkaitan langsung dengan perekrutan oleh Eleven Labs) tidak menunjukkan hubungan sebab-akibat
Suara bahasa Inggris (aksen Amerika) benar-benar luar biasa, tetapi bagian tag tawa terasa seperti penyisipan segmen terpisah semacam "tertawa di sini", jadi bukan tawa sesaat yang alami dalam alur ucapan, melainkan seperti potongan yang dipaksa masuk
Misalnya, bagian yang seharusnya diucapkan sambil tertawa di tengah kata masih terasa canggung
- Jika teksnya diedit agar tawa muncul di tempat yang secara konteks memang alami, hasilnya jauh lebih natural, jadi saya merekomendasikan melihat contoh ini
- Harganya masih mahal, jadi masih banyak peluang bagi layanan pesaing
  ElevenLabs memang masih pemimpin dari sisi kualitas, tetapi para pesaing juga mengejar dengan cepat
  Khususnya lab dan perusahaan AI dari China juga merilis model TTS open source penuh, yang pada akhirnya ikut mempercepat perubahan ekosistem bahkan dari sudut pandang perusahaan AS
  Fenomena ini pada akhirnya menguntungkan pengguna
  PlayHT yang didanai Y Combinator juga merilis banyak fitur bagus
Hasilnya benar-benar luar biasa, sampai 99% tidak bisa dibedakan dari pengisi suara profesional
Saya tidak menemukan informasi harga, apakah ada yang tahu?
- Saya melihat pengumuman bahwa API publik untuk Eleven v3 (alpha) akan segera dirilis
  Untuk ikut early access atau konsultasi harga, tertulis agar menghubungi tim sales
  Sepertinya bahkan perusahaan itu sendiri belum menetapkan harga final dan ingin mengukur permintaan terlebih dahulu
- Wow... saya pengisi suara profesional
- Tetap saja itu hanya "AI", bukan manusia sungguhan
  Musik, audiobook, puisi, novel, drama, dan hal-hal semacam itu tetap perlu didengar dari manusia sungguhan yang benar-benar berbicara sendiri
  Di situlah letak kenikmatan esensial yang saya cari
Ini mungkin agak di luar topik (meski masih ada kaitannya dengan TTS...), tetapi kata 'eleven' mengingatkan saya pada video komedi pengenalan suara lift beraksen Skotlandia
Video komedi Elevator Voice Recognition
Saya rasa saya belum melihat sampel beraksen Inggris British
Secara umum, sistem TTS tampaknya hanya menangani aksen Amerika, dan aksen Inggrisnya terdengar seperti "orang Amerika menirukan aksen British" ala Frasier
- Dalam pustaka suara kami ada banyak suara British yang beragam
  Atau, jika menambahkan "[British accent]" di awal prompt, hasilnya akan menjadi seperti orang Amerika yang menirukan aksen British
- Persoalan aksen Frasier Crane sendiri bisa diperdebatkan, karena itu adalah aktor Amerika yang memerankan karakter Amerika dengan aksen yang, tergantung situasinya, terdengar Amerika tetapi juga transatlantic atau Boston Brahmin, atau campuran keduanya
  Kedua aksen itu memang meminjam sebagian ciri yang mirip dengan aksen British
- Sebagai catatan, aksen ala Frasier bukan "menirukan British", melainkan lebih ke aksen Boston Brahmin/transatlantic
- Suara beraksen di ElevenLabs v2 masih jauh lebih unggul dibanding pesaing
  Saya sudah memakainya langsung dalam berbagai bahasa seperti Arab, Prancis, Hindi, dan Inggris
Bahasa Inggrisnya benar-benar terdengar fantastis, selamat
Namun, bahasa-bahasa lain yang saya coba masih menyisakan aksen Inggris yang kuat
- Dalam bahasa Italia, awalnya terdengar seperti aksen Amerika yang benar-benar komikal, lalu setelah sekitar 10~20 kata tiba-tiba berubah menjadi pengucapan Italia yang sungguhan
  Saya memakai suara Alice, dan rasanya secara internal model memulai dari basis en-us lalu cepat menyesuaikan ke bahasa yang disetel
  Saya penasaran apa yang sebenarnya terjadi di balik layar
- Bahasa Prancis terdengar seperti aksen orang Alabama yang sempat belajar bahasa Prancis sebentar saat kuliah
  Tetapi bahasa Inggrisnya memang sangat bagus
- Untuk bahasa Portugis, menariknya suara Liam justru beraksen Spanyol
  Ikon bahasanya menunjukkan Portugis, tetapi cara pengucapannya jelas Portugis Brasil
- Bahasa Swedia terdengar sepenuhnya seperti orang Amerika
- Saya sarankan mencoba suara yang memang dilatih berbasis bahasa tersebut
  Pratinjau riset kali ini performanya belum merata, dan kualitasnya sangat bergantung pada pilihan suara

Eleven v3 — model text-to-speech paling ekspresif

Gambaran umum Eleven v3

Pembuatan percakapan multi-pembicara

Dukungan suara multibahasa

Perbedaan utama antara v3 dan v2

Kualitas suara dan pengalaman pengguna

Daya saing dan potensi penerapan

Diskon dan dukungan API

Kesimpulan

Bacaan terkait

2 komentar

Opini Hacker News