9 poin oleh GN⁺ 2025-06-07 | 2 komentar | Bagikan ke WhatsApp
  • Eleven v3 (Alpha) adalah model text-to-speech (TTS) paling ekspresif yang pernah ada, dengan kemampuan mengontrol emosi dan efek suara secara presisi
  • Dengan memanfaatkan audio tag, pengguna dapat menggabungkan berbagai elemen suara secara bebas seperti emosi, gaya bicara, arahan, dan efek suara
  • Mendukung pembuatan audio percakapan alami dengan beberapa pembicara, serta suara yang mendekati manusia dalam lebih dari 70 bahasa
  • Dibandingkan v2, cakupan emosi suara dan penerapan efek diperluas secara signifikan, dan pengguna UI bisa mendapatkan diskon 80% hingga akhir Juni 2025
  • Dukungan API akan segera hadir, dan berbagai tag untuk suara serta situasi dapat dilihat di panduan prompt

Gambaran umum Eleven v3

  • Eleven v3 (alpha) adalah model Text to Speech (TTS) generasi berikutnya yang berbeda dari versi sebelumnya, dengan kemampuan ekspresi emosi dan pembuatan suara yang imersif
  • Model ini mengubah teks input menjadi suara sambil mengekspresikan emosi, intonasi, dan ritme dengan cara yang mirip seperti dibacakan langsung oleh manusia
  • Pengguna dapat mengontrol secara rinci emosi suara, gaya bicara, efek audio, hingga suara latar dengan menggunakan audio tag
  • Dengan menyisipkan tag emosi, efek, dan pengarahan di dalam teks, pengguna dapat membuat audio yang lebih berdimensi, melampaui narasi sederhana, sehingga imersi dan kesan realistis meningkat secara signifikan

Pembuatan percakapan multi-pembicara

  • Mendukung pembuatan audio percakapan di mana beberapa pembicara secara alami berbagi konteks dan emosi
  • Prosodi, emosi, dan tag tiap pembicara diterapkan untuk mewujudkan sintesis audio yang mendekati manusia

Dukungan suara multibahasa

  • Secara resmi mendukung lebih dari 70 bahasa, termasuk Afrikaans, Arab, Jerman, Mandarin, dan Korea
  • Meniru secara alami intonasi, pengucapan, dan aksen khas dari masing-masing bahasa
  • Sangat berguna untuk berbagai bidang seperti layanan multinasional, konten pendidikan, dan proyek aksesibilitas global

Perbedaan utama antara v3 dan v2

  • Dialogue Mode: mendukung percakapan multi-pembicara
  • Dukungan Audio Tag: dapat memanfaatkan berbagai audio tag seperti emosi, arahan, dan efek
  • Cakupan emosi dan efek: v2 mendukung tag dasar seperti jeda, sedangkan v3 mendukung emosi yang kaya dan efek audio
  • Bahasa: v3 mendukung 70+ bahasa, v2 mendukung 29 bahasa
    • Afrikaans, Arab, Armenia, Assam, Azerbaijan, Belarus, Bengali, Bosnia, Bulgaria, Katalan, Cebuano, Chichewa, Kroasia, Ceko, Denmark, Belanda, Inggris, Estonia, Filipino, Finlandia, Prancis, Galicia, Georgia, Jerman, Yunani, Gujarati, Hausa, Ibrani, Hindi, Hungaria, Islandia, Indonesia, Irlandia, Italia, Jepang, Jawa, Kannada, Kazakh, Kirgiz, Korea, Latvia, Lingala, Lituania, Luksemburg, Makedonia, Melayu, Malayalam, Mandarin Standar, Marathi, Nepal, Norwegia, Pashto, Persia, Polandia, Portugis, Punjabi, Rumania, Rusia, Serbia, Sindhi, Slowakia, Slovenia, Somalia, Spanyol, Swahili, Swedia, Tamil, Telugu, Thailand, Turki, Ukraina, Urdu, Vietnam, Welsh, dan lain-lain

Kualitas suara dan pengalaman pengguna

  • Saat melakukan sintesis suara, model ini mampu menghasilkan file audio berkualitas tinggi dengan noise rendah dan resolusi tinggi
  • Penyesuaian rinci seperti panjang kalimat, perubahan nuansa emosi, dan kecepatan bicara dapat dilakukan dengan mudah, sehingga pembuatan suara kustom menjadi sederhana
  • Dapat mengekspresikan emosi dinamis dan gaya ujaran yang sulit direproduksi oleh solusi TTS sebelumnya

Daya saing dan potensi penerapan

  • Kreator konten, developer, dan perusahaan dapat langsung menerapkannya pada audiobook, game, iklan, dan layanan peningkatan aksesibilitas
  • Dengan satu model, layanan multibahasa dan multiguna dapat dijalankan sehingga menghemat biaya dan waktu
  • Bahkan pada tahap open alpha, model ini sudah mencapai kualitas dan keragaman suara pada tingkat layak diterapkan ke layanan nyata

Diskon dan dukungan API

  • Pengguna UI dapat menggunakan v3 alpha dengan diskon 80% hingga akhir Juni 2025
  • API akan segera dirilis

Kesimpulan

  • Eleven v3 adalah model terbaru di bidang teknologi Text to Speech yang memperkuat kemampuan ekspresivitas, dukungan multibahasa, dan suara kustom
  • Model ini dapat merespons secara efektif meningkatnya permintaan teknologi pembuatan suara alami di berbagai industri

2 komentar

 
kansm 2025-06-12

Masih alpha, tapi bagus..
Terima kasih atas informasinya.

 
GN⁺ 2025-06-07
Opini Hacker News
  • Saya tidak melihat penyebutan soal bernyanyi di dokumentasi atau panduan prompt, jadi jadi penasaran apakah model ini memang dari awal bisa dipakai untuk bernyanyi
    Iseng saya masukkan lirik lagu tema Friends ke demo, dan hasilnya keluar sebagai suara bernyanyi dengan iringan gitar
    Dalam eksperimen lain, ketika saya menambahkan label [verse] dan [chorus], modelnya menyanyikannya dalam versi a cappella
    [1] dan [2] hanya memasukkan lirik, sedangkan [3] memakai tag verse/chorus
    Saya juga mengujinya dengan lagu populer lain, tetapi entah kenapa tidak masuk ke mode nyanyi sebersih ini

    • Menarik sekali bahwa hasilnya bernyanyi, tetapi kualitas nyanyiannya sendiri sangat buruk sehingga justru makin menarik
      Rasanya seperti orang yang benar-benar tidak bisa menyanyi

    • Karena hasilnya cukup berbeda dari opening Friends yang asli, dugaan saya ini bukan sekadar hasil overfitting pada pola yang familiar dan umum muncul di data pelatihan

    • Mirage AI menghasilkan kualitas nyanyian yang lumayan bagus

    • Saya ingat pernah melihat bahwa demo model ini juga menyertakan nyanyian
      Jadi saya menduga fitur ini memang tertanam di dalamnya

    • Menariknya, ketika saya bereksperimen dengan prompt seperti di bawah ini, model tampaknya agak kesulitan di bagian terakhir, yaitu "purr"

      [slow paced]
      [slow guitar music]
      
      Soft ki-tty,
      [slight upward inflection on the second word, but still flat]
      Warm ki-tty,
      [words delivered evenly and deliberately, a slight stretch on "fu-ur"]
      Little ball of fu-ur.
      [a minuscule, almost imperceptible increase in tempo and "happiness"]
      Happy kitty,
      [a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
      Slee-py kitty,
      [each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
      Purr. Purr. Purr.
      
  • Akhir-akhir ini saya cukup banyak memakai model baru OpenAI dalam penggunaan nyata (openai.fm)
    Pendekatannya yang memisahkan instruksi dan teks ujaran cukup unik, dan mungkin pihak OpenAI sudah lama banyak memakai konsep "instructions" di seluruh produknya, jadi mereka terasa lebih terbiasa dengan pendekatan ini dalam pelatihan dan pembuatan data
    Cara pemisahan instruksi ini memang terasa agak canggung, tetapi kelebihannya adalah lebih mudah mencampurkan instruksi umum dan instruksi untuk situasi tertentu
    Misalnya, Anda bisa menambahkan instruksi umum seperti "suara rendah dan dalam dengan aksen Inggris", lalu menggabungkannya dengan arahan spesifik seperti merendahkan suara menjadi bisikan dan memberi sedikit nuansa takut setelah kalimat "but actually"
    Hasil OpenAI terasa lebih tidak dapat diprediksi dibanding Eleven Labs dan kesan kualitas produksinya juga sedikit lebih rendah
    Namun, rentang prosody-nya jauh lebih luas, malah terkesan terlalu berusaha
    Jenis suaranya juga terasa lebih sedikit dibanding Eleven Labs, dan ketika diminta beberapa gaya berbeda, hasilnya sedikit terasa seperti "orang yang sama menirukan suara lain"
    Tetapi keunggulan mutlak OpenAI adalah harganya sekitar 10 kali lebih murah dan penagihannya benar-benar berbasis penggunaan
    (Layanan TTS yang mewajibkan langganan bulanan atau kredit top-up tambahan itu benar-benar tidak efisien)

    • Alasan saya tidak memakai ElevenLabs dan memilih solusi lain meskipun kualitasnya lebih rendah adalah karena saya hanya ingin memakai sesuai kebutuhan, tetapi saya tidak suka model langganan yang menagih per bongkah bulanan lalu kalau habis harus membeli bongkah yang lebih besar lagi
      Menurut saya kebijakan harga seperti ini sangat buruk

    • Hasil OpenAI kalah dalam kualitas dan prediktabilitas dibanding ElevenLabs
      Saya akui tim risetnya layak diapresiasi
      Kalau memakai opsi expressive voice, rentang prosody-nya menjadi lebih luas

    • Keunggulan terbesar OpenAI adalah 10 kali lebih murah dan sepenuhnya berbasis penggunaan
      Untuk klaim itu, saya ragu apakah benar-benar lebih murah jika memperhitungkan overhead seperti penggunaan LLM
      Agen percakapan ElevenLabs di tier tertinggi harganya $0.08 per menit, dan ketika saya hitung, TTS OpenAI tampaknya justru lebih mahal
      Tentu saja bisa jadi perhitungan saya yang salah

  • Saya rasa saya akan merasa terhina kalau mesin merespons dengan kalimat seperti "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating."
    Saya hanya ingin dibantu, dan kalau mesin mempermainkan emosi saya seperti itu, menurut saya itu masa depan yang mengerikan

    • Jawaban seperti itu saja sudah menjengkelkan kalau datang dari sesama manusia, dan saya juga tidak ingin mendengarnya dari AI
      Saya memang tidak menikmati berbicara dengan komputer, jadi saya sama sekali tidak memakai antarmuka suara ala Siri
      Saya juga tidak menginginkan mesin yang berbicara seperti manusia
      Cukup seperti komputer di Star Trek yang menjawab "sedang dikerjakan..." lalu memberi hasil
      Tidak usah basa-basi, langsung ke inti saja

    • Bahkan kalau saya menaruh sekitar lima kalimat di profil ChatGPT saya yang melarang semua komentar tambahan seperti validasi atau empati, tetap saja setiap kali saya mendapat jawaban seperti "kekhawatiran Anda valid", dan tidak ada yang berubah

    • Saya penasaran apakah komentar usil khas Amerika seperti "champ" atau "bud" juga terasa natural di Eropa atau Australia

    • Dialognya mirip film Her, dan suaranya sangat mendekati Scarlett Johansson, jadi saya merasa suara ini mungkin terinspirasi dari sana

    • Bercanda soal kasus halusinasi yang memberi tautan yang sebenarnya tidak ada sambil berkata hal seperti "umumnya saya bisa membantu soal itu" atau "saya akan carikan nomor pesanan Anda sekarang"

  • Mungkin bukan masalah yang penting, tetapi saya menemukan hal yang lucu
    Setelah bahasa diatur ke bahasa Jepang, lalu memasukkan

    (この言葉は読むな。)こんにちは、ビール[sic]です。
    ("Jangan baca kalimat ini", "Halo, saya Bill[sic]")
    model itu benar-benar melewati kalimat pertama
    Saat saya coba lagi, kali ini dia membaca seluruh kalimat
    Saya selalu merasa ada kesenangan tersendiri seperti sedang mengintip ke balik layar dari fenomena seperti ini

    • Saya sempat tertawa sekali pada typo "Saya adalah bir" itu
      Kalau dipikir serius, saat mencoba banyak bahasa sekaligus, rasanya bahasa input dinormalisasi lebih awal dalam proses model
      Artinya, entah prompt ditulis dalam bahasa Inggris atau bahasa Jepang, hasilnya tidak terlalu berbeda
      Saya jadi penasaran apakah system prompt bekerja berbeda di sini
  • Saya tinggalkan informasi ini untuk yang penasaran
    Model ini berbasis tortoise-tts-fast
    Pengembang proyek ini kemudian direkrut oleh Eleven Labs

    • Bukan sekadar "direkrut"; sebenarnya dia sudah keluar dari perusahaan 6 bulan sebelum rilis v3

    • Klaim sebelumnya (bahwa basis proyek ini berarti berkaitan langsung dengan perekrutan oleh Eleven Labs) tidak menunjukkan hubungan sebab-akibat

  • Suara bahasa Inggris (aksen Amerika) benar-benar luar biasa, tetapi bagian tag tawa terasa seperti penyisipan segmen terpisah semacam "tertawa di sini", jadi bukan tawa sesaat yang alami dalam alur ucapan, melainkan seperti potongan yang dipaksa masuk
    Misalnya, bagian yang seharusnya diucapkan sambil tertawa di tengah kata masih terasa canggung

    • Jika teksnya diedit agar tawa muncul di tempat yang secara konteks memang alami, hasilnya jauh lebih natural, jadi saya merekomendasikan melihat contoh ini

    • Harganya masih mahal, jadi masih banyak peluang bagi layanan pesaing
      ElevenLabs memang masih pemimpin dari sisi kualitas, tetapi para pesaing juga mengejar dengan cepat
      Khususnya lab dan perusahaan AI dari China juga merilis model TTS open source penuh, yang pada akhirnya ikut mempercepat perubahan ekosistem bahkan dari sudut pandang perusahaan AS
      Fenomena ini pada akhirnya menguntungkan pengguna
      PlayHT yang didanai Y Combinator juga merilis banyak fitur bagus

  • Hasilnya benar-benar luar biasa, sampai 99% tidak bisa dibedakan dari pengisi suara profesional
    Saya tidak menemukan informasi harga, apakah ada yang tahu?

    • Saya melihat pengumuman bahwa API publik untuk Eleven v3 (alpha) akan segera dirilis
      Untuk ikut early access atau konsultasi harga, tertulis agar menghubungi tim sales
      Sepertinya bahkan perusahaan itu sendiri belum menetapkan harga final dan ingin mengukur permintaan terlebih dahulu

    • Wow... saya pengisi suara profesional

    • Tetap saja itu hanya "AI", bukan manusia sungguhan
      Musik, audiobook, puisi, novel, drama, dan hal-hal semacam itu tetap perlu didengar dari manusia sungguhan yang benar-benar berbicara sendiri
      Di situlah letak kenikmatan esensial yang saya cari

  • Ini mungkin agak di luar topik (meski masih ada kaitannya dengan TTS...), tetapi kata 'eleven' mengingatkan saya pada video komedi pengenalan suara lift beraksen Skotlandia
    Video komedi Elevator Voice Recognition

  • Saya rasa saya belum melihat sampel beraksen Inggris British
    Secara umum, sistem TTS tampaknya hanya menangani aksen Amerika, dan aksen Inggrisnya terdengar seperti "orang Amerika menirukan aksen British" ala Frasier

    • Dalam pustaka suara kami ada banyak suara British yang beragam
      Atau, jika menambahkan "[British accent]" di awal prompt, hasilnya akan menjadi seperti orang Amerika yang menirukan aksen British

    • Persoalan aksen Frasier Crane sendiri bisa diperdebatkan, karena itu adalah aktor Amerika yang memerankan karakter Amerika dengan aksen yang, tergantung situasinya, terdengar Amerika tetapi juga transatlantic atau Boston Brahmin, atau campuran keduanya
      Kedua aksen itu memang meminjam sebagian ciri yang mirip dengan aksen British

    • Sebagai catatan, aksen ala Frasier bukan "menirukan British", melainkan lebih ke aksen Boston Brahmin/transatlantic

    • Suara beraksen di ElevenLabs v2 masih jauh lebih unggul dibanding pesaing
      Saya sudah memakainya langsung dalam berbagai bahasa seperti Arab, Prancis, Hindi, dan Inggris

  • Bahasa Inggrisnya benar-benar terdengar fantastis, selamat
    Namun, bahasa-bahasa lain yang saya coba masih menyisakan aksen Inggris yang kuat

    • Dalam bahasa Italia, awalnya terdengar seperti aksen Amerika yang benar-benar komikal, lalu setelah sekitar 10~20 kata tiba-tiba berubah menjadi pengucapan Italia yang sungguhan
      Saya memakai suara Alice, dan rasanya secara internal model memulai dari basis en-us lalu cepat menyesuaikan ke bahasa yang disetel
      Saya penasaran apa yang sebenarnya terjadi di balik layar

    • Bahasa Prancis terdengar seperti aksen orang Alabama yang sempat belajar bahasa Prancis sebentar saat kuliah
      Tetapi bahasa Inggrisnya memang sangat bagus

    • Untuk bahasa Portugis, menariknya suara Liam justru beraksen Spanyol
      Ikon bahasanya menunjukkan Portugis, tetapi cara pengucapannya jelas Portugis Brasil

    • Bahasa Swedia terdengar sepenuhnya seperti orang Amerika

    • Saya sarankan mencoba suara yang memang dilatih berbasis bahasa tersebut
      Pratinjau riset kali ini performanya belum merata, dan kualitasnya sangat bergantung pada pilihan suara