Gemini 3.1 Flash TTS - Model suara AI generasi berikutnya yang mengontrol gaya suara dengan bahasa alami

(blog.google)

3 poin oleh GN⁺ 2026-04-16 | Belum ada komentar. | Bagikan ke WhatsApp

Google meluncurkan model text-to-speech baru dengan naturalitas dan ekspresivitas yang ditingkatkan dibanding sebelumnya, serta mendukung pengembangan aplikasi suara AI untuk developer, perusahaan, dan pengguna umum
Fitur audio tags yang baru diperkenalkan memungkinkan kontrol yang detail atas gaya suara, kecepatan, dan cara penyampaian dengan menyisipkan perintah bahasa alami langsung ke dalam teks
Mencatat skor Elo 1.211 di leaderboard Artificial Analysis TTS, dan dinilai sebagai kombinasi ideal antara pembuatan suara berkualitas tinggi dan biaya rendah
Mendukung lebih dari 70 bahasa dan dilengkapi kemampuan percakapan multi-speaker native
Semua audio yang dihasilkan diberi watermark SynthID untuk memungkinkan deteksi tepercaya atas konten buatan AI dan pencegahan misinformasi

Peluncuran dan kanal ketersediaan

Gemini 3.1 Flash TTS adalah model text-to-speech terbaru yang menawarkan kontrol, ekspresivitas, dan kualitas yang ditingkatkan
Saat ini tersedia dalam pratinjau melalui kanal berikut:
- Untuk developer: Gemini API dan Google AI Studio
- Untuk perusahaan: Vertex AI
- Untuk pengguna Workspace: Google Vids

Kualitas suara secara keseluruhan telah ditingkatkan, menjadikannya model paling natural dan ekspresif hingga saat ini
Meraih Elo 1.211 di leaderboard Artificial Analysis TTS berdasarkan ribuan evaluasi preferensi manusia secara blind
Artificial Analysis menempatkan Gemini 3.1 Flash TTS di "most attractive quadrant" sebagai kombinasi ideal antara pembuatan suara berkualitas tinggi dan biaya rendah
Dibedakan oleh percakapan multi-speaker native, dukungan untuk lebih dari 70 bahasa, dan kemampuan kontrol kreatif yang detail berbasis bahasa alami

Fitur audio tags baru memungkinkan kontrol yang intuitif atas gaya suara, kecepatan, dan cara penyampaian
Menyisipkan perintah bahasa alami langsung ke input teks untuk menyesuaikan keluaran suara AI secara detail
Perusahaan dapat memanfaatkan audio tags di dalam Vertex AI untuk membangun aplikasi enterprise generasi berikutnya
Di Google AI Studio, tersedia kontrol yang dapat dikonfigurasi untuk menempatkan developer di "director's chair":
- Scene direction: mendefinisikan lingkungan dan menetapkan arahan dialog yang spesifik, memberikan konteks worldbuilding agar karakter dapat merespons secara alami sepanjang beberapa giliran
- Speaker-level specificity: melakukan casting karakter dengan Audio Profile yang unik, mengatur kecepatan, tone, dan intonasi dengan Director's Notes, serta mengubah ekspresi bahkan di tengah kalimat melalui tag inline
- Seamless export: parameter yang telah selesai dapat diekspor ke kode Gemini API sehingga suara yang konsisten dapat dipertahankan di berbagai proyek dan platform
Dengan konfigurasi ini, developer dapat mewujudkan karakter yang mudah diingat dan pengalaman audio yang imersif

Menyediakan suara fidelitas tinggi dan kontrol presisi dalam lebih dari 70 bahasa
Membangun pengalaman suara yang dilokalkan melalui kontrol lanjutan atas gaya, kecepatan, dan intonasi untuk pasar utama
Developer dan perusahaan yang menjadi penguji awal memberikan penilaian tinggi pada kontrol dan ekspresivitas 3.1 Flash TTS yang mengesankan
- Masukan mereka menyebut audio tags menghadirkan tingkat presisi kreatif yang baru dan mengubah teks sederhana menjadi performa vokal fidelitas tinggi

Semua audio yang dihasilkan Gemini 3.1 Flash TTS diberi watermark SynthID
Watermark yang tidak dapat disadari disisipkan langsung ke output audio untuk memungkinkan deteksi tepercaya atas konten buatan AI
Berfungsi sebagai perlindungan untuk mencegah misinformasi, dan model card menyediakan informasi terperinci tentang keamanan dan tanggung jawab