3 poin oleh GN⁺ 2 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • OpenAI meluncurkan 3 model audio baru untuk API suara real-time yang dilengkapi kemampuan penalaran, penerjemahan, dan transkripsi, sehingga developer dapat membangun aplikasi suara yang lebih natural dan cerdas
  • GPT-Realtime-2 adalah model suara pertama dengan kemampuan penalaran setingkat GPT-5, yang dapat melanjutkan percakapan secara natural sambil melakukan pemanggilan tool dan menangani interupsi
  • GPT-Realtime-Translate adalah model terjemahan langsung yang menerjemahkan lebih dari 70 bahasa input ke 13 bahasa output secara real-time
  • GPT-Realtime-Whisper adalah model transkripsi suara streaming yang mengubah ucapan menjadi teks saat pembicara sedang berbicara, dan dapat dimanfaatkan untuk caption, notulen rapat, dukungan pelanggan, dan lainnya
  • Ini menjadi titik balik evolusi suara, dari sekadar pola panggil-respons menjadi antarmuka yang sekaligus menjalankan penalaran, terjemahan, transkripsi, dan eksekusi tool

Gambaran umum 3 model audio real-time baru

  • Tiga model diperkenalkan ke API agar developer dapat membangun pengalaman suara yang lebih natural, merespons lebih cerdas, dan melakukan aksi secara real-time
  • GPT-Realtime-2: model suara pertama dengan penalaran setingkat GPT-5, yang menangani permintaan sulit dan memandu percakapan secara natural
  • GPT-Realtime-Translate: menjalankan terjemahan suara real-time dari lebih dari 70 bahasa input ke 13 bahasa output sambil menyesuaikan dengan kecepatan bicara penutur
  • GPT-Realtime-Whisper: menyediakan transkripsi suara-ke-teks live streaming saat pembicara sedang berbicara

Tren suara menjadi antarmuka perangkat lunak

  • Suara muncul sebagai salah satu cara paling natural menggunakan perangkat lunak: meminta bantuan saat mengemudi, mengubah rencana perjalanan di bandara, mendapatkan dukungan dalam bahasa pilihan, atau menyelesaikan pekerjaan tanpa mengetik
  • Produk suara yang berguna memerlukan lebih dari sekadar turn-taking yang cepat atau suara yang natural: perlu memahami makna, melacak konteks, pulih saat permintaan berubah, menggunakan tool di tengah percakapan, dan merespons dengan nada yang tepat
  • Model yang dirilis kali ini mengubah audio real-time dari pola panggil-respons sederhana menjadi antarmuka suara yang mendengar, bernalar, menerjemahkan, mentranskripsikan, dan bertindak

3 pola baru yang muncul dalam AI suara

  • Voice-to-Action: pengguna menyampaikan kebutuhannya dengan berbicara, lalu sistem bernalar dan menggunakan tool untuk menyelesaikan tugas
    • Contoh Zillow: sedang membangun asisten yang dapat mendengar, menalar, dan mengeksekusi permintaan seperti “cari rumah dalam rentang BuyAbility saya, hindari jalan yang ramai, dan jadwalkan tur hari Sabtu”
  • Systems-to-Voice: perangkat lunak mengubah konteks menjadi panduan suara real-time
    • Contoh aplikasi perjalanan: memberikan panduan suara proaktif seperti “penerbangan masuk Anda tertunda tetapi transit masih memungkinkan. Gerbang baru sudah ditemukan, rute tercepat di terminal sedang dipandu, dan bagasi Anda dijadwalkan berpindah dengan normal”
  • Voice-to-Voice: AI menjaga percakapan real-time tetap berlanjut lintas bahasa, tugas, dan konteks yang terus berubah
    • Contoh Deutsche Telekom: sedang membangun pengalaman dukungan suara yang menerjemahkan secara real-time saat pelanggan berbicara dalam bahasa yang paling nyaman bagi mereka
  • Pola-pola ini juga dapat digabungkan, dan Priceline sedang mendorong masa depan di mana seluruh perjalanan dikelola lewat suara, mulai dari pencarian penerbangan dan hotel, perubahan reservasi, update waktu tunggu TSA, hingga terjemahan percakapan lokal

GPT-Realtime-2: model suara real-time yang menalar dan bertindak

  • Dioptimalkan untuk interaksi suara real-time, sehingga dapat menalar sambil melakukan pemanggilan tool, menangani koreksi dan interupsi, serta memberikan respons yang sesuai konteks secara bersamaan
  • Preambles: frasa pendek seperti “saya cek dulu” atau “sebentar ya” memberi tahu pengguna bahwa agen sedang memproses permintaan
  • Pemanggilan tool paralel dan transparansi tool: dapat memanggil beberapa tool sekaligus sambil menjaga responsivitas melalui frasa seperti “sedang mengecek kalender” atau “sedang mencari sekarang”
  • Perilaku pemulihan yang ditingkatkan: alih-alih gagal diam-diam atau memutus percakapan dengan ungkapan seperti “sulit diproses saat ini”, model dapat pulih secara natural
  • Context window yang diperluas: meningkat dari 32K menjadi 128K untuk mendukung sesi yang lebih panjang dan alur kerja yang lebih kompleks
  • Pemahaman domain yang diperkuat: lebih baik dalam mempertahankan kosakata penting di lingkungan produksi seperti istilah teknis, nama diri, dan istilah medis
  • Nada dan penyampaian yang dapat dikendalikan: bisa menyesuaikan tone, misalnya tetap tenang saat menyelesaikan masalah, empatik saat pengguna frustrasi, atau cerah saat mengonfirmasi keberhasilan
  • Upaya penalaran yang dapat diatur: tersedia 5 tingkat, minimal, low, medium, high, xhigh, dengan default low agar interaksi sederhana tetap berlatensi rendah dan permintaan kompleks bisa memperoleh penalaran yang lebih mendalam

Benchmark performa GPT-Realtime-2

  • GPT-Realtime-2 (high) mencatat skor 15.2% lebih tinggi dibanding GPT-Realtime-1.5 pada Big Bench Audio untuk tolok ukur kecerdasan audio
  • GPT-Realtime-2 (xhigh) mencatat skor 13.8% lebih tinggi dibanding GPT-Realtime-1.5 pada Audio MultiChallenge untuk kepatuhan terhadap instruksi, dengan peningkatan pada penalaran, pengelolaan konteks, dan kemampuan kontrol
  • Kutipan Josh Weisberg, SVP di Zillow: setelah optimasi prompt pada benchmark adversarial paling sulit, tingkat keberhasilan panggilan naik 26 poin (95% vs. 69%), kepatuhan terhadap aturan Fair Housing juga lebih kuat, dan kombinasi kapabilitas agen serta kekuatan guardrail dinilai cocok untuk suara produksi Zillow

GPT-Realtime-Translate: terjemahan suara multibahasa real-time

  • Memungkinkan pembangunan pengalaman suara multibahasa di mana setiap peserta berbicara dalam bahasa pilihannya, mendengar percakapan yang diterjemahkan secara real-time, dan membaca transkripsi real-time
  • Dukungan lebih dari 70 bahasa input dan 13 bahasa output memungkinkan penggunaan untuk dukungan pelanggan, penjualan lintas negara, pendidikan, acara, media, dan platform kreator global
  • Model harus menjaga makna sambil menyesuaikan kecepatan bicara penutur, serta menangani ucapan yang natural, perpindahan konteks, aksen regional, dan bahasa yang spesifik domain
  • Deutsche Telekom sedang mengujinya untuk interaksi suara multibahasa, dan latensi rendah serta kefasihan yang ditingkatkan membuat percakapan lintas bahasa terasa lebih natural
  • Contoh Vimeo: GPT-Realtime-Translate dapat menerjemahkan secara real-time saat video pelatihan produk diputar, sehingga pelanggan global dapat mendengar pembaruan dalam bahasa pilihan mereka tanpa perlu versi produksi terpisah
  • Kutipan Prateek Sachan, CTO BolnaAI: pada evaluasi bahasa Hindi, Tamil, dan Telugu, word error rate (WER) 12.5% lebih rendah dibanding model lain, rasio fallback menurun, tingkat penyelesaian tugas tinggi, dan latensi tetap mampu menjaga percakapan natural

GPT-Realtime-Whisper: transkripsi streaming berlatensi rendah

  • Model transkripsi streaming baru untuk konversi suara-ke-teks berlatensi rendah, yang mentranskripsikan audio saat pembicara sedang berbicara
  • Dapat digunakan untuk caption real-time, catatan rapat yang dibuat selama percakapan berlangsung, agen suara yang membutuhkan pemahaman pengguna secara berkelanjutan, serta alur tindak lanjut cepat untuk interaksi suara berfrekuensi tinggi seperti dukungan pelanggan, layanan kesehatan, penjualan, dan perekrutan
  • Memungkinkan pemanfaatan langsung data suara real-time ke dalam workflow bisnis, seperti pembuatan caption untuk rapat, kelas, siaran, dan acara, serta pembuatan catatan atau ringkasan selama percakapan berlangsung

Keamanan dan kebijakan

  • Pengaman berlapis dan langkah mitigasi diterapkan pada Realtime API untuk mencegah penyalahgunaan
  • Active classifiers untuk sesi sedang dijalankan, dan percakapan dapat dihentikan jika terdeteksi pelanggaran pedoman konten berbahaya
  • Developer dapat menambahkan guardrail keamanan mereka sendiri menggunakan Agents SDK
  • Sesuai kebijakan penggunaan, dilarang mendaur ulang atau mendistribusikan output untuk tujuan berbahaya seperti spam atau penipuan
  • Harus jelas bagi pengguna akhir bahwa mereka sedang berinteraksi dengan AI, kecuali jika hal itu sudah jelas dari konteks
  • Residensi data UE didukung sepenuhnya dan tunduk pada komitmen privasi enterprise

Harga dan ketersediaan

  • GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper semuanya tersedia di Realtime API
  • GPT-Realtime-2: $32 per 1 juta token input audio (token input cache $0.40), dan $64 per 1 juta token output audio
  • GPT-Realtime-Translate: $0.034 per menit
  • GPT-Realtime-Whisper: $0.017 per menit
  • Model suara real-time baru dapat diuji di Playground, dan GPT-Realtime-2 dapat ditambahkan ke aplikasi yang sudah ada atau digunakan untuk memulai proyek baru melalui Codex

Belum ada komentar.

Belum ada komentar.