Model Audio OpenAI

(openai.fm)

13 poin oleh GN⁺ 2025-03-21 | 2 komentar | Bagikan ke WhatsApp

Demo interaktif bagi developer untuk mencoba model text-to-speech baru di OpenAI API
Melalui prompt, efek suara, tone, kecepatan, emosi, pengucapan, jeda, dan lainnya dapat ditentukan secara rinci

Demo

Pilihan suara: 11 jenis seperti Alloy, Ash, Ballad, Coral, Echo, dll.
Berbagai pilihan vibe: Sincere, Friendly, Noir Detective, Robot, Auctioneer, dll.

Contoh: Sincere

Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
Emotions: Calm reassurance, empathy, and gratitude.  
Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
Pauses: Before and after the apology to give space for processing the apology.

Contoh: Medieval Knight

Efek suara: dalam, tegas, dan sedikit dramatis, mencerminkan kemegahan kisah bahasa Inggris kuno  
Tone: mulia, heroik, dan formal, menangkap esensi ksatria abad pertengahan dan petualangan epik  
Emosi: perpaduan antara kegembiraan, antisipasi, misteri, serta keseriusan takdir dan kewajiban  
Pengucapan: jelas, hati-hati, dengan ritme yang sedikit formal; kata-kata seperti "hast", "thou", "doth" ditekankan perlahan dengan mencerminkan pola pengucapan bahasa Inggris kuno  
Jeda: beri jeda setelah frasa bahasa Inggris kuno seperti "Lo!", "Hark!", serta di antara klausa seperti "Choose thy path" untuk menekankan pentingnya keputusan dan memberi pendengar waktu merenungkan keseriusan misi

2 komentar

GN⁺ 2025-03-21

Pendapat Hacker News

Harga model-model ini jauh lebih murah dibanding ElevenLabs
- Untuk model gpt-4o-mini-tts, biayanya $0.015 per menit audio, 85% lebih murah daripada ElevenLabs
- Paket "Business" ElevenLabs menawarkan 11.000 menit TTS seharga $1100 per bulan, ditagih 10 sen per menit
- OpenAI dapat menyediakan 11.000 menit TTS seharga $165
- Meminta konfirmasi apakah perhitungannya benar
Jeff dari OpenAI mengabarkan bahwa model audio baru telah dirilis
- Dua model pengenalan suara dan model TTS baru dirilis
- Mendukung Agents SDK yang memudahkan agen teks diubah menjadi agen suara
- Mengatakan untuk bertanya jika ada pertanyaan
Menyebut masalah keandalan pada model text-to-speech dan speech-to-text
- Tidak yakin seberapa bermasalah ini dalam aplikasi dunia nyata
- Memberikan tautan ke catatan terkait
Menanyakan cara mendapatkan "speech marks" bersama audio yang dihasilkan
- Menjelaskan "speech marks" yang digunakan di layanan TTS Polly milik AWS
- Berguna untuk penekanan teks dan lip-sync
Perkembangan terbaru model text-to-speech dan speech-to-text berukuran besar
- Menyebut perlunya solusi text-to-speech offline dan multibahasa
- Menganggap Tortoise TTS sering merusak kata-kata
- SDK Acapela adalah satu-satunya solusi plugin aplikasi desktop
- Berharap model berbasis jaringan saraf baru bisa berjalan efisien di komputer biasa
Berbagai intonasi dan karakter dapat diwujudkan sesuai teks yang dimasukkan ke kotak "vibe"
- Tingkat prosodi dan intonasi cerdasnya mengejutkan
- Sudah berkembang sampai hanya butuh selebritas untuk rekaman audiobook
- Memberikan berbagai contoh suara lucu
Reaksi saat memasukkan copypasta Navy Seal
- Kontrol keamanan bekerja berbeda tergantung instruksi "vibe"
- Sopir taksi NYC bekerja tanpa masalah dan terasa lucu
Merasa ada getaran halus pada suara model baru, sehingga kalah dari Siri
Alat resmi OpenAI terhubung dengan pengumuman model baru
Kutipan penting dari pengumuman resmi
- Developer dapat menginstruksikan bukan hanya apa yang harus dikatakan model, tetapi juga bagaimana cara mengatakannya
- "vibes" adalah instruksi di UI
- Model baru lebih mampu mengakomodasi perbedaan halus
- Biaya output audio gpt-4o-mini-tts sebesar $0.015 per menit cukup praktis
- Berencana melakukan lebih banyak pengujian

sylee999 2025-03-21

Bahasa Korea juga berfungsi dengan sempurna.

Model Audio OpenAI

Demo

Bacaan terkait

2 komentar

Pendapat Hacker News