3 poin oleh GN⁺ 4 hari lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • Google meluncurkan model text-to-speech baru dengan naturalitas dan ekspresivitas yang ditingkatkan dibanding sebelumnya, serta mendukung pengembangan aplikasi suara AI untuk developer, perusahaan, dan pengguna umum
  • Fitur audio tags yang baru diperkenalkan memungkinkan kontrol yang detail atas gaya suara, kecepatan, dan cara penyampaian dengan menyisipkan perintah bahasa alami langsung ke dalam teks
  • Mencatat skor Elo 1.211 di leaderboard Artificial Analysis TTS, dan dinilai sebagai kombinasi ideal antara pembuatan suara berkualitas tinggi dan biaya rendah
  • Mendukung lebih dari 70 bahasa dan dilengkapi kemampuan percakapan multi-speaker native
  • Semua audio yang dihasilkan diberi watermark SynthID untuk memungkinkan deteksi tepercaya atas konten buatan AI dan pencegahan misinformasi

Peluncuran dan kanal ketersediaan

  • Gemini 3.1 Flash TTS adalah model text-to-speech terbaru yang menawarkan kontrol, ekspresivitas, dan kualitas yang ditingkatkan
  • Saat ini tersedia dalam pratinjau melalui kanal berikut:
    • Untuk developer: Gemini API dan Google AI Studio
    • Untuk perusahaan: Vertex AI
    • Untuk pengguna Workspace: Google Vids

Peningkatan kualitas suara dan kontrol

  • Kualitas suara secara keseluruhan telah ditingkatkan, menjadikannya model paling natural dan ekspresif hingga saat ini
  • Meraih Elo 1.211 di leaderboard Artificial Analysis TTS berdasarkan ribuan evaluasi preferensi manusia secara blind
  • Artificial Analysis menempatkan Gemini 3.1 Flash TTS di "most attractive quadrant" sebagai kombinasi ideal antara pembuatan suara berkualitas tinggi dan biaya rendah
  • Dibedakan oleh percakapan multi-speaker native, dukungan untuk lebih dari 70 bahasa, dan kemampuan kontrol kreatif yang detail berbasis bahasa alami

Ekspresivitas yang ditingkatkan melalui audio tags

  • Fitur audio tags baru memungkinkan kontrol yang intuitif atas gaya suara, kecepatan, dan cara penyampaian
  • Menyisipkan perintah bahasa alami langsung ke input teks untuk menyesuaikan keluaran suara AI secara detail
  • Perusahaan dapat memanfaatkan audio tags di dalam Vertex AI untuk membangun aplikasi enterprise generasi berikutnya
  • Di Google AI Studio, tersedia kontrol yang dapat dikonfigurasi untuk menempatkan developer di "director's chair":
    • Scene direction: mendefinisikan lingkungan dan menetapkan arahan dialog yang spesifik, memberikan konteks worldbuilding agar karakter dapat merespons secara alami sepanjang beberapa giliran
    • Speaker-level specificity: melakukan casting karakter dengan Audio Profile yang unik, mengatur kecepatan, tone, dan intonasi dengan Director's Notes, serta mengubah ekspresi bahkan di tengah kalimat melalui tag inline
    • Seamless export: parameter yang telah selesai dapat diekspor ke kode Gemini API sehingga suara yang konsisten dapat dipertahankan di berbagai proyek dan platform
  • Dengan konfigurasi ini, developer dapat mewujudkan karakter yang mudah diingat dan pengalaman audio yang imersif

Dukungan skala global

  • Menyediakan suara fidelitas tinggi dan kontrol presisi dalam lebih dari 70 bahasa
  • Membangun pengalaman suara yang dilokalkan melalui kontrol lanjutan atas gaya, kecepatan, dan intonasi untuk pasar utama
  • Developer dan perusahaan yang menjadi penguji awal memberikan penilaian tinggi pada kontrol dan ekspresivitas 3.1 Flash TTS yang mengesankan
    • Masukan mereka menyebut audio tags menghadirkan tingkat presisi kreatif yang baru dan mengubah teks sederhana menjadi performa vokal fidelitas tinggi

Watermarking SynthID

  • Semua audio yang dihasilkan Gemini 3.1 Flash TTS diberi watermark SynthID
  • Watermark yang tidak dapat disadari disisipkan langsung ke output audio untuk memungkinkan deteksi tepercaya atas konten buatan AI
  • Berfungsi sebagai perlindungan untuk mencegah misinformasi, dan model card menyediakan informasi terperinci tentang keamanan dan tanggung jawab

Belum ada komentar.

Belum ada komentar.