13 poin oleh xguru 2024-10-07 | 1 komentar | Bagikan ke WhatsApp
  • Dengan menggunakan framework Agent, Anda dapat membangun program server berbasis AI yang dapat melihat, mendengar, dan berbicara secara real-time
  • Terhubung melalui perangkat pengguna dan sesi LiveKit, menangani streaming teks, audio, gambar, dan video, serta menayangkan hasil yang dihasilkan model AI kepada pengguna
  • Menyediakan API MultimodalAgent melalui kolaborasi dengan OpenAI
    • Membungkus sepenuhnya Realtime API milik OpenAI untuk mengabstraksikan protokol Raw Wire, serta menyediakan transmisi WebRTC berlatensi sangat rendah antara GPT-4o dan perangkat
    • Ini adalah stack teknologi yang digunakan pada fitur Advanced Voice di aplikasi ChatGPT
  • Fitur yang disediakan
    • Plugin untuk LLM populer, layanan transkripsi dan text-to-speech, serta database RAG
    • Menyediakan abstraksi tingkat tinggi untuk membangun agen atau asisten suara dengan deteksi giliran otomatis, penanganan interupsi, pemanggilan fungsi, dan fitur transkripsi
    • Kompatibel dengan stack teleponi LiveKit sehingga agen dapat melakukan atau menerima panggilan telepon
    • Sistem load balancing terintegrasi untuk mengelola pool agen dengan dispatch berbasis edge, pemantauan, dan failover transparan
    • Eksekusi agen berjalan sama di localhost, self-hosting, maupun lingkungan LiveKit Cloud

1 komentar

 
xguru 2024-10-07

LiveKit - platform komunikasi real-time open source

Saya pernah membagikan LiveKit sekali pada 2021, dan tampaknya setelah diperluas dengan fitur Agents, sekarang juga dipakai di ChatGPT.
Awalnya ini adalah produk untuk fitur konferensi audio/video real-time bagi 10–1000 orang.
Karena bisa menjadi alternatif open source untuk Agora yang digunakan ClubHouse, saat itu produk ini mendapat cukup banyak perhatian.
Dan setelah saya cari, ternyata Agora juga menyediakan fungsi yang sama dengan nama Conversational AI SDK.

https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/