OpenAI mengumumkan seri GPT-Realtime-2 dengan kemampuan penalaran setingkat GPT-5

(openai.com)

9 poin oleh GN⁺ 2026-05-08 | 1 komentar | Bagikan ke WhatsApp

OpenAI meluncurkan 3 model audio baru untuk API suara real-time yang dilengkapi kemampuan penalaran, penerjemahan, dan transkripsi, sehingga developer dapat membangun aplikasi suara yang lebih natural dan cerdas
GPT-Realtime-2 adalah model suara pertama dengan kemampuan penalaran setingkat GPT-5, yang dapat melanjutkan percakapan secara natural sambil melakukan pemanggilan tool dan menangani interupsi
GPT-Realtime-Translate adalah model terjemahan langsung yang menerjemahkan lebih dari 70 bahasa input ke 13 bahasa output secara real-time
GPT-Realtime-Whisper adalah model transkripsi suara streaming yang mengubah ucapan menjadi teks saat pembicara sedang berbicara, dan dapat dimanfaatkan untuk caption, notulen rapat, dukungan pelanggan, dan lainnya
Ini menjadi titik balik evolusi suara, dari sekadar pola panggil-respons menjadi antarmuka yang sekaligus menjalankan penalaran, terjemahan, transkripsi, dan eksekusi tool

Gambaran umum 3 model audio real-time baru

Tiga model diperkenalkan ke API agar developer dapat membangun pengalaman suara yang lebih natural, merespons lebih cerdas, dan melakukan aksi secara real-time
GPT-Realtime-2: model suara pertama dengan penalaran setingkat GPT-5, yang menangani permintaan sulit dan memandu percakapan secara natural
GPT-Realtime-Translate: menjalankan terjemahan suara real-time dari lebih dari 70 bahasa input ke 13 bahasa output sambil menyesuaikan dengan kecepatan bicara penutur
GPT-Realtime-Whisper: menyediakan transkripsi suara-ke-teks live streaming saat pembicara sedang berbicara

Tren suara menjadi antarmuka perangkat lunak

Suara muncul sebagai salah satu cara paling natural menggunakan perangkat lunak: meminta bantuan saat mengemudi, mengubah rencana perjalanan di bandara, mendapatkan dukungan dalam bahasa pilihan, atau menyelesaikan pekerjaan tanpa mengetik
Produk suara yang berguna memerlukan lebih dari sekadar turn-taking yang cepat atau suara yang natural: perlu memahami makna, melacak konteks, pulih saat permintaan berubah, menggunakan tool di tengah percakapan, dan merespons dengan nada yang tepat
Model yang dirilis kali ini mengubah audio real-time dari pola panggil-respons sederhana menjadi antarmuka suara yang mendengar, bernalar, menerjemahkan, mentranskripsikan, dan bertindak

3 pola baru yang muncul dalam AI suara

Voice-to-Action: pengguna menyampaikan kebutuhannya dengan berbicara, lalu sistem bernalar dan menggunakan tool untuk menyelesaikan tugas
- Contoh Zillow: sedang membangun asisten yang dapat mendengar, menalar, dan mengeksekusi permintaan seperti “cari rumah dalam rentang BuyAbility saya, hindari jalan yang ramai, dan jadwalkan tur hari Sabtu”
Systems-to-Voice: perangkat lunak mengubah konteks menjadi panduan suara real-time
- Contoh aplikasi perjalanan: memberikan panduan suara proaktif seperti “penerbangan masuk Anda tertunda tetapi transit masih memungkinkan. Gerbang baru sudah ditemukan, rute tercepat di terminal sedang dipandu, dan bagasi Anda dijadwalkan berpindah dengan normal”
Voice-to-Voice: AI menjaga percakapan real-time tetap berlanjut lintas bahasa, tugas, dan konteks yang terus berubah
- Contoh Deutsche Telekom: sedang membangun pengalaman dukungan suara yang menerjemahkan secara real-time saat pelanggan berbicara dalam bahasa yang paling nyaman bagi mereka
Pola-pola ini juga dapat digabungkan, dan Priceline sedang mendorong masa depan di mana seluruh perjalanan dikelola lewat suara, mulai dari pencarian penerbangan dan hotel, perubahan reservasi, update waktu tunggu TSA, hingga terjemahan percakapan lokal

GPT-Realtime-2: model suara real-time yang menalar dan bertindak

Dioptimalkan untuk interaksi suara real-time, sehingga dapat menalar sambil melakukan pemanggilan tool, menangani koreksi dan interupsi, serta memberikan respons yang sesuai konteks secara bersamaan
Preambles: frasa pendek seperti “saya cek dulu” atau “sebentar ya” memberi tahu pengguna bahwa agen sedang memproses permintaan
Pemanggilan tool paralel dan transparansi tool: dapat memanggil beberapa tool sekaligus sambil menjaga responsivitas melalui frasa seperti “sedang mengecek kalender” atau “sedang mencari sekarang”
Perilaku pemulihan yang ditingkatkan: alih-alih gagal diam-diam atau memutus percakapan dengan ungkapan seperti “sulit diproses saat ini”, model dapat pulih secara natural
Context window yang diperluas: meningkat dari 32K menjadi 128K untuk mendukung sesi yang lebih panjang dan alur kerja yang lebih kompleks
Pemahaman domain yang diperkuat: lebih baik dalam mempertahankan kosakata penting di lingkungan produksi seperti istilah teknis, nama diri, dan istilah medis
Nada dan penyampaian yang dapat dikendalikan: bisa menyesuaikan tone, misalnya tetap tenang saat menyelesaikan masalah, empatik saat pengguna frustrasi, atau cerah saat mengonfirmasi keberhasilan
Upaya penalaran yang dapat diatur: tersedia 5 tingkat, minimal, low, medium, high, xhigh, dengan default low agar interaksi sederhana tetap berlatensi rendah dan permintaan kompleks bisa memperoleh penalaran yang lebih mendalam

Benchmark performa GPT-Realtime-2

GPT-Realtime-2 (high) mencatat skor 15.2% lebih tinggi dibanding GPT-Realtime-1.5 pada Big Bench Audio untuk tolok ukur kecerdasan audio
GPT-Realtime-2 (xhigh) mencatat skor 13.8% lebih tinggi dibanding GPT-Realtime-1.5 pada Audio MultiChallenge untuk kepatuhan terhadap instruksi, dengan peningkatan pada penalaran, pengelolaan konteks, dan kemampuan kontrol
Kutipan Josh Weisberg, SVP di Zillow: setelah optimasi prompt pada benchmark adversarial paling sulit, tingkat keberhasilan panggilan naik 26 poin (95% vs. 69%), kepatuhan terhadap aturan Fair Housing juga lebih kuat, dan kombinasi kapabilitas agen serta kekuatan guardrail dinilai cocok untuk suara produksi Zillow

GPT-Realtime-Translate: terjemahan suara multibahasa real-time

Memungkinkan pembangunan pengalaman suara multibahasa di mana setiap peserta berbicara dalam bahasa pilihannya, mendengar percakapan yang diterjemahkan secara real-time, dan membaca transkripsi real-time
Dukungan lebih dari 70 bahasa input dan 13 bahasa output memungkinkan penggunaan untuk dukungan pelanggan, penjualan lintas negara, pendidikan, acara, media, dan platform kreator global
Model harus menjaga makna sambil menyesuaikan kecepatan bicara penutur, serta menangani ucapan yang natural, perpindahan konteks, aksen regional, dan bahasa yang spesifik domain
Deutsche Telekom sedang mengujinya untuk interaksi suara multibahasa, dan latensi rendah serta kefasihan yang ditingkatkan membuat percakapan lintas bahasa terasa lebih natural
Contoh Vimeo: GPT-Realtime-Translate dapat menerjemahkan secara real-time saat video pelatihan produk diputar, sehingga pelanggan global dapat mendengar pembaruan dalam bahasa pilihan mereka tanpa perlu versi produksi terpisah
Kutipan Prateek Sachan, CTO BolnaAI: pada evaluasi bahasa Hindi, Tamil, dan Telugu, word error rate (WER) 12.5% lebih rendah dibanding model lain, rasio fallback menurun, tingkat penyelesaian tugas tinggi, dan latensi tetap mampu menjaga percakapan natural

GPT-Realtime-Whisper: transkripsi streaming berlatensi rendah

Model transkripsi streaming baru untuk konversi suara-ke-teks berlatensi rendah, yang mentranskripsikan audio saat pembicara sedang berbicara
Dapat digunakan untuk caption real-time, catatan rapat yang dibuat selama percakapan berlangsung, agen suara yang membutuhkan pemahaman pengguna secara berkelanjutan, serta alur tindak lanjut cepat untuk interaksi suara berfrekuensi tinggi seperti dukungan pelanggan, layanan kesehatan, penjualan, dan perekrutan
Memungkinkan pemanfaatan langsung data suara real-time ke dalam workflow bisnis, seperti pembuatan caption untuk rapat, kelas, siaran, dan acara, serta pembuatan catatan atau ringkasan selama percakapan berlangsung

Keamanan dan kebijakan

Pengaman berlapis dan langkah mitigasi diterapkan pada Realtime API untuk mencegah penyalahgunaan
Active classifiers untuk sesi sedang dijalankan, dan percakapan dapat dihentikan jika terdeteksi pelanggaran pedoman konten berbahaya
Developer dapat menambahkan guardrail keamanan mereka sendiri menggunakan Agents SDK
Sesuai kebijakan penggunaan, dilarang mendaur ulang atau mendistribusikan output untuk tujuan berbahaya seperti spam atau penipuan
Harus jelas bagi pengguna akhir bahwa mereka sedang berinteraksi dengan AI, kecuali jika hal itu sudah jelas dari konteks
Residensi data UE didukung sepenuhnya dan tunduk pada komitmen privasi enterprise

Harga dan ketersediaan

GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper semuanya tersedia di Realtime API
GPT-Realtime-2: $32 per 1 juta token input audio (token input cache $0.40), dan $64 per 1 juta token output audio
GPT-Realtime-Translate: $0.034 per menit
GPT-Realtime-Whisper: $0.017 per menit
Model suara real-time baru dapat diuji di Playground, dan GPT-Realtime-2 dapat ditambahkan ke aplikasi yang sudah ada atau digunakan untuk memulai proyek baru melalui Codex

1 komentar

kleinstein 2026-05-08

Apakah GPT-Realtime-Translate akan mendukung bahasa Korea?

OpenAI mengumumkan seri GPT-Realtime-2 dengan kemampuan penalaran setingkat GPT-5

Gambaran umum 3 model audio real-time baru

Tren suara menjadi antarmuka perangkat lunak

3 pola baru yang muncul dalam AI suara

GPT-Realtime-2: model suara real-time yang menalar dan bertindak

Benchmark performa GPT-Realtime-2

GPT-Realtime-Translate: terjemahan suara multibahasa real-time

GPT-Realtime-Whisper: transkripsi streaming berlatensi rendah

Keamanan dan kebijakan

Harga dan ketersediaan

Bacaan terkait

1 komentar