- Komponen kontrol suara untuk React/browser yang dibangun di atas Realtime API
- Memungkinkan implementasi widget yang merespons instruksi suara, mulai dari input formulir hingga berbagai aksi lainnya
- Menyediakan pola tool-constrained UI yang membatasi agar asisten hanya menjalankan aksi yang diizinkan aplikasi
- Karena satu controller mengelola sekaligus koneksi sesi, pemrosesan audio, eksekusi tool, dan perakitan transkrip, developer tidak perlu menangani WebRTC atau protokol Realtime secara langsung
- Saat dipasang ke aplikasi yang sudah ada, aplikasi tetap mempertahankan satu-satunya sumber status (source of truth), sementara lapisan suara hanya memanggil handler aplikasi yang dibatasi
- Ini adalah paket opinionated yang dioptimalkan untuk alur UI browser, bukan framework orkestrasi umum; jika membutuhkan runtime non-React atau orkestrasi agen, disarankan menggunakan Raw Realtime atau
openai-agents-js
- Untuk integrasi ke aplikasi yang sudah ada, tersedia panduan 9 langkah: proxy endpoint
/session → buat wrapper voice adapter → daftarkan tool → hoist controller → mount widget
- Controller secara default menggunakan
server_vad, dan pada sesi tool-only disetel dengan interruptResponse: false agar pemanggilan tool yang sedang berjalan tidak dibatalkan oleh suara baru
- Di aplikasi demo, tersedia berbagai skenario integrasi seperti pergantian tema, formulir multi-langkah, alur catur dengan status bersama, serta eksperimen wake-word
- Lisensi Apache-2.0
1 komentar
Video penggunaannya bisa dilihat di https://x.com/OpenAIDevs/status/2048871260512473385
Kelihatannya bekerja cukup cepat dan bagus. Meski begitu, karena biaya API cukup membebani, kemungkinan penggunaannya akan terbatas..
Kalau hal seperti ini nanti bisa diimplementasikan di model lokal, sepertinya akan cukup layak dipakai.