- Google meluncurkan model text-to-speech baru dengan naturalitas dan ekspresivitas yang ditingkatkan dibanding sebelumnya, serta mendukung pengembangan aplikasi suara AI untuk developer, perusahaan, dan pengguna umum
- Fitur audio tags yang baru diperkenalkan memungkinkan kontrol yang detail atas gaya suara, kecepatan, dan cara penyampaian dengan menyisipkan perintah bahasa alami langsung ke dalam teks
- Mencatat skor Elo 1.211 di leaderboard Artificial Analysis TTS, dan dinilai sebagai kombinasi ideal antara pembuatan suara berkualitas tinggi dan biaya rendah
- Mendukung lebih dari 70 bahasa dan dilengkapi kemampuan percakapan multi-speaker native
- Semua audio yang dihasilkan diberi watermark SynthID untuk memungkinkan deteksi tepercaya atas konten buatan AI dan pencegahan misinformasi
Peluncuran dan kanal ketersediaan
- Gemini 3.1 Flash TTS adalah model text-to-speech terbaru yang menawarkan kontrol, ekspresivitas, dan kualitas yang ditingkatkan
- Saat ini tersedia dalam pratinjau melalui kanal berikut:
- Untuk developer: Gemini API dan Google AI Studio
- Untuk perusahaan: Vertex AI
- Untuk pengguna Workspace: Google Vids
Peningkatan kualitas suara dan kontrol
- Kualitas suara secara keseluruhan telah ditingkatkan, menjadikannya model paling natural dan ekspresif hingga saat ini
- Meraih Elo 1.211 di leaderboard Artificial Analysis TTS berdasarkan ribuan evaluasi preferensi manusia secara blind
- Artificial Analysis menempatkan Gemini 3.1 Flash TTS di "most attractive quadrant" sebagai kombinasi ideal antara pembuatan suara berkualitas tinggi dan biaya rendah
- Dibedakan oleh percakapan multi-speaker native, dukungan untuk lebih dari 70 bahasa, dan kemampuan kontrol kreatif yang detail berbasis bahasa alami
Ekspresivitas yang ditingkatkan melalui audio tags
- Fitur audio tags baru memungkinkan kontrol yang intuitif atas gaya suara, kecepatan, dan cara penyampaian
- Menyisipkan perintah bahasa alami langsung ke input teks untuk menyesuaikan keluaran suara AI secara detail
- Perusahaan dapat memanfaatkan audio tags di dalam Vertex AI untuk membangun aplikasi enterprise generasi berikutnya
- Di Google AI Studio, tersedia kontrol yang dapat dikonfigurasi untuk menempatkan developer di "director's chair":
- Scene direction: mendefinisikan lingkungan dan menetapkan arahan dialog yang spesifik, memberikan konteks worldbuilding agar karakter dapat merespons secara alami sepanjang beberapa giliran
- Speaker-level specificity: melakukan casting karakter dengan Audio Profile yang unik, mengatur kecepatan, tone, dan intonasi dengan Director's Notes, serta mengubah ekspresi bahkan di tengah kalimat melalui tag inline
- Seamless export: parameter yang telah selesai dapat diekspor ke kode Gemini API sehingga suara yang konsisten dapat dipertahankan di berbagai proyek dan platform
- Dengan konfigurasi ini, developer dapat mewujudkan karakter yang mudah diingat dan pengalaman audio yang imersif
Dukungan skala global
- Menyediakan suara fidelitas tinggi dan kontrol presisi dalam lebih dari 70 bahasa
- Membangun pengalaman suara yang dilokalkan melalui kontrol lanjutan atas gaya, kecepatan, dan intonasi untuk pasar utama
- Developer dan perusahaan yang menjadi penguji awal memberikan penilaian tinggi pada kontrol dan ekspresivitas 3.1 Flash TTS yang mengesankan
- Masukan mereka menyebut audio tags menghadirkan tingkat presisi kreatif yang baru dan mengubah teks sederhana menjadi performa vokal fidelitas tinggi
Watermarking SynthID
- Semua audio yang dihasilkan Gemini 3.1 Flash TTS diberi watermark SynthID
- Watermark yang tidak dapat disadari disisipkan langsung ke output audio untuk memungkinkan deteksi tepercaya atas konten buatan AI
- Berfungsi sebagai perlindungan untuk mencegah misinformasi, dan model card menyediakan informasi terperinci tentang keamanan dan tanggung jawab
Belum ada komentar.