13 poin oleh GN⁺ 2025-03-21 | 2 komentar | Bagikan ke WhatsApp
  • Demo interaktif bagi developer untuk mencoba model text-to-speech baru di OpenAI API
  • Melalui prompt, efek suara, tone, kecepatan, emosi, pengucapan, jeda, dan lainnya dapat ditentukan secara rinci

Demo

  • Pilihan suara: 11 jenis seperti Alloy, Ash, Ballad, Coral, Echo, dll.
  • Berbagai pilihan vibe: Sincere, Friendly, Noir Detective, Robot, Auctioneer, dll.
  • Contoh: Sincere
    Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
    Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
    Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
    Emotions: Calm reassurance, empathy, and gratitude.  
    Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
    Pauses: Before and after the apology to give space for processing the apology.  
    
  • Contoh: Medieval Knight
    Efek suara: dalam, tegas, dan sedikit dramatis, mencerminkan kemegahan kisah bahasa Inggris kuno  
    Tone: mulia, heroik, dan formal, menangkap esensi ksatria abad pertengahan dan petualangan epik  
    Emosi: perpaduan antara kegembiraan, antisipasi, misteri, serta keseriusan takdir dan kewajiban  
    Pengucapan: jelas, hati-hati, dengan ritme yang sedikit formal; kata-kata seperti "hast", "thou", "doth" ditekankan perlahan dengan mencerminkan pola pengucapan bahasa Inggris kuno  
    Jeda: beri jeda setelah frasa bahasa Inggris kuno seperti "Lo!", "Hark!", serta di antara klausa seperti "Choose thy path" untuk menekankan pentingnya keputusan dan memberi pendengar waktu merenungkan keseriusan misi  
    

2 komentar

 
GN⁺ 2025-03-21
Pendapat Hacker News
  • Harga model-model ini jauh lebih murah dibanding ElevenLabs

    • Untuk model gpt-4o-mini-tts, biayanya $0.015 per menit audio, 85% lebih murah daripada ElevenLabs
    • Paket "Business" ElevenLabs menawarkan 11.000 menit TTS seharga $1100 per bulan, ditagih 10 sen per menit
    • OpenAI dapat menyediakan 11.000 menit TTS seharga $165
    • Meminta konfirmasi apakah perhitungannya benar
  • Jeff dari OpenAI mengabarkan bahwa model audio baru telah dirilis

    • Dua model pengenalan suara dan model TTS baru dirilis
    • Mendukung Agents SDK yang memudahkan agen teks diubah menjadi agen suara
    • Mengatakan untuk bertanya jika ada pertanyaan
  • Menyebut masalah keandalan pada model text-to-speech dan speech-to-text

    • Tidak yakin seberapa bermasalah ini dalam aplikasi dunia nyata
    • Memberikan tautan ke catatan terkait
  • Menanyakan cara mendapatkan "speech marks" bersama audio yang dihasilkan

    • Menjelaskan "speech marks" yang digunakan di layanan TTS Polly milik AWS
    • Berguna untuk penekanan teks dan lip-sync
  • Perkembangan terbaru model text-to-speech dan speech-to-text berukuran besar

    • Menyebut perlunya solusi text-to-speech offline dan multibahasa
    • Menganggap Tortoise TTS sering merusak kata-kata
    • SDK Acapela adalah satu-satunya solusi plugin aplikasi desktop
    • Berharap model berbasis jaringan saraf baru bisa berjalan efisien di komputer biasa
  • Berbagai intonasi dan karakter dapat diwujudkan sesuai teks yang dimasukkan ke kotak "vibe"

    • Tingkat prosodi dan intonasi cerdasnya mengejutkan
    • Sudah berkembang sampai hanya butuh selebritas untuk rekaman audiobook
    • Memberikan berbagai contoh suara lucu
  • Reaksi saat memasukkan copypasta Navy Seal

    • Kontrol keamanan bekerja berbeda tergantung instruksi "vibe"
    • Sopir taksi NYC bekerja tanpa masalah dan terasa lucu
  • Merasa ada getaran halus pada suara model baru, sehingga kalah dari Siri

  • Alat resmi OpenAI terhubung dengan pengumuman model baru

  • Kutipan penting dari pengumuman resmi

    • Developer dapat menginstruksikan bukan hanya apa yang harus dikatakan model, tetapi juga bagaimana cara mengatakannya
    • "vibes" adalah instruksi di UI
    • Model baru lebih mampu mengakomodasi perbedaan halus
    • Biaya output audio gpt-4o-mini-tts sebesar $0.015 per menit cukup praktis
    • Berencana melakukan lebih banyak pengujian
 
sylee999 2025-03-21

Bahasa Korea juga berfungsi dengan sempurna.