13 poin oleh xguru 2024-11-28 | 1 komentar | Bagikan ke WhatsApp
  • Voice AI bukan sekadar peningkatan UI, tetapi inovasi pada cara bisnis terhubung dengan pelanggan
    • Seperti layanan pelanggan maskapai: waktu tunggu yang lama, pilihan menu yang berulang, dan kurangnya pemahaman atas situasi pelanggan. Masalah tidak terselesaikan, sementara stres dan pemborosan waktu justru bertambah
    • Dengan Voice AI, berbeda dari sistem IVR (respons suara interaktif) tradisional yang kaku, dimungkinkan menghadirkan pengalaman yang bercakap seperti manusia dan mempersonalisasi pengalaman pelanggan, serta tersedia 24 jam
      • Memahami situasi pelanggan secara langsung dan menawarkan alternatif terbaik
      • Contoh: memesan ulang penerbangan yang dibatalkan secara otomatis, merekomendasikan alternatif berdasarkan preferensi pelanggan
      • Dalam beberapa situasi, pelanggan mungkin lebih memilih agen AI dibanding manusia
    • Voice AI memenuhi permintaan dan ekspektasi pelanggan yang tinggi sekaligus meningkatkan efisiensi operasional
  • Voice AI adalah perpaduan model AI native suara dan teknologi multimodal

Pasar besar komunikasi suara

  • Manusia lebih suka berbicara:
    • Miliaran panggilan telepon terjadi setiap hari
    • Meski teks, email, dan media sosial sudah umum digunakan, telepon masih menjadi sarana komunikasi utama di banyak bisnis
    • Di berbagai industri seperti layanan kesehatan, layanan hukum, layanan rumah, asuransi, dan logistik, telepon tetap penting untuk menyampaikan informasi kompleks, memberikan layanan yang dipersonalisasi, dan menangani situasi mendesak
  • Masalah dalam komunikasi telepon tradisional
    • Kurangnya tingkat respons:
      • 62% SMB (usaha kecil dan menengah) gagal memenuhi kebutuhan pelanggan dan kehilangan peluang bisnis karena melewatkan panggilan telepon
      • Masalah umum:
        • Di luar jam kerja, panggilan dialihkan ke voicemail
        • Hanya bisa menangani satu panggilan dalam satu waktu
        • Kualitas dukungan tidak konsisten
    • Keterbatasan teknis:
      • Sistem IVR (diperkenalkan pada 1970-an):
        • Hanya dapat menangani perintah yang telah ditentukan sebelumnya, kurang fleksibel: "Tekan 1 untuk membuat reservasi" "Sebutkan secara singkat bagian yang ingin Anda bantu"
        • Tidak memahami niat atau urgensi pelanggan
      • Penurunan pengalaman pelanggan:
        • Waktu tunggu lama
        • Navigasi menu yang tidak efisien
        • Gagal menyelesaikan masalah
  • Meski permintaannya tinggi:
    • Teknologi lama memiliki keterbatasan dalam menyelesaikan masalah pelanggan secara efisien dan nyaman
    • Dibutuhkan teknologi otomasi suara yang lebih maju

[Mengapa sekarang adalah waktu yang tepat untuk mengembangkan teknologi Voice]

Evolusi teknologi suara

  1. Sistem IVR awal:
  • Teknologi IVR (Interactive Voice Response) yang diperkenalkan pada 1970-an:
    • Hanya mampu memproses perintah yang telah ditentukan
    • Tidak memahami niat dan urgensi pengguna
  • Meski kurang disukai, pasar ini tetap bernilai $5 miliar
  1. Kemunculan teknologi ASR/STT:
  • Model Automatic Speech Recognition (ASR) dan Speech-to-Text (STT):
    • Teknologi yang mengubah suara menjadi teks secara real-time
    • Munculnya startup seperti Gong, Rev, dan DeepL
    • Peluncuran model Whisper dari OpenAI (2022) dan Reverb dari Rev (2024):
      • Mendukung sistem percakapan alami yang dapat menangani aksen, kebisingan latar, emosi, dan lainnya
  1. Inovasi terbaru: perkembangan Voice AI:
  • Pengembangan model Text-To-Speech(TTS) yang menghasilkan suara kaya emosi:
  • Kemampuan multimodal:
    • Google Gemini 1.5: mengintegrasikan input suara, teks, dan visual
    • Voice Engine dari OpenAI: menghasilkan suara yang meniru percakapan manusia
  • Peluncuran GPT-4o:
    • Integrasi native real-time untuk audio, visi, dan teks
    • Mampu menangani percakapan kompleks dan memberikan respons cerdas

Dua kemajuan utama yang didorong inovasi terbaru

  • Penyebaran model berkualitas tinggi dan pengembangan aplikasi:
    • Keterbatasan arsitektur "cascading" sebelumnya:
      • Dalam proses konversi STT → LLM → TTS, terjadi latensi dan hilangnya informasi non-teks
      • Latensi respons yang tinggi menimbulkan pengalaman pengguna yang negatif
    • Model baru:
      • GPT-4 Turbo: mengurangi latensi
      • Model dapat dipilih sesuai use case
  • Munculnya model Speech-to-Speech(STS):
    • Memproses suara secara langsung tanpa mengubahnya menjadi teks:
      • Ultra-low latency: waktu respons sekitar 300 ms memungkinkan percakapan yang alami
      • Pemahaman konteks: mempertahankan informasi percakapan sebelumnya, memahami niat dan emosi
      • Peningkatan pengenalan emosi dan nada: memberikan respons yang mencerminkan emosi dan perasaan
      • Deteksi aktivitas suara real-time: pengguna dapat berbicara tanpa percakapan terasa terputus

Model native suara: masa depan percakapan suara

  • Mengatasi keterbatasan arsitektur cascading:
    • Model STS khusus suara:
      • Kyutai Moshi: model open source
      • Alibaba SenseVoice & CosyVoice: model khusus suara
      • Hume Empathetic Voice Interface: menangani respons emosional
  • Realtime API dari OpenAI:
    • Mendukung interaksi Speech-to-Speech berbasis GPT-4o

Tantangan utama dalam adopsi industri

Tiga faktor utama yang menghambat penerapan agen suara

  • Kualitas (Quality):
    • Banyak agen Voice AI masih belum cukup stabil untuk dipercaya di berbagai use case.
    • Perusahaan umumnya mencoba agen suara lebih dulu di lingkungan berisiko rendah:
      • Contoh: perusahaan kecil perbaikan atap menggunakan agen untuk menangani panggilan di luar jam kerja
      • Saat diperluas ke use case bernilai tinggi, standar kualitas menjadi jauh lebih ketat
      • Contoh: jika satu panggilan pelanggan bisa berujung pada proyek senilai $30.000, toleransi terhadap kegagalan panggilan menjadi sangat rendah
  • Kepercayaan (Trust):
    • Pelanggan sudah berkali-kali mengalami pengalaman negatif akibat teknologi IVR yang ada:
      • Respons lambat, struktur menu yang tidak efisien, kurangnya percakapan yang alami
    • Perusahaan perlu membangun kepercayaan bahwa AI dapat menangani kebutuhan pelanggan dengan akurat dan cepat
  • Keandalan (Reliability):
    • Contoh keluhan utama:
      • Panggilan terputus: pelanggan frustrasi karena percakapan berhenti
      • Halusinasi (Hallucination): AI memberikan jawaban yang tidak akurat atau melenceng
      • Latensi respons: waktu pemrosesan yang panjang membuat pelanggan pergi

Arah pengembangan untuk menyelesaikan masalah

  • Optimasi latensi dan keandalan:
    • Meningkatnya platform developer yang menyediakan infrastruktur yang lebih andal: berfokus pada pengurangan latensi dan pencegahan putusnya percakapan
  • Pemulihan yang graceful (Fail Gracefully):
    • Saat panggilan gagal, memulihkan alur percakapan secara alami: meminimalkan gangguan pada pengalaman pelanggan
  • Orkestrasi percakapan:
    • Agen AI dirancang agar mengikuti alur yang dapat diprediksi: meminimalkan halusinasi dan menetapkan guardrail pada informasi serta cakupan percakapan yang boleh diberikan ke pelanggan

Peta pasar Voice AI

  • Di pasar Voice AI, inovasi terjadi di berbagai lapisan, mulai dari model dasar, infrastruktur suara, platform developer, hingga aplikasi
  • Secara khusus, peluang penting terlihat di tiga area inti berikut

1. Model (Models)

  • Fungsi: membangun teknologi yang mendukung use case berbasis suara, dengan spesialisasi pada SST(Speech-to-Speech), LLS(Large Language Models), TTS(Text-to-Speech), dan teknologi tertentu lainnya
  • Arah masa depan:
    • Model multimodal dan native suara akan memimpin
    • Teknologi yang dapat memproses audio secara langsung tanpa konversi teks-audio akan menjadi penting
  • Model generasi berikutnya:
    • Perusahaan seperti Cartesia merintis arsitektur baru dengan memanfaatkan State Space Models(SSMs)
    • Pemrosesan percakapan sederhana dipisahkan ke model kecil, sementara tugas kompleks ke model yang lebih kuat, sehingga diharapkan mengurangi latensi dan biaya

2. Platform developer (Developer Platforms)

  • Membangun agen Voice AI dan mengelola infrastruktur suara real-time masih menjadi tantangan teknis besar bagi developer. Platform baru mengatasi kompleksitas ini dan memberikan berbagai dukungan bagi developer
  • Optimasi latensi dan keandalan:
    • Mengelola agen suara real-time berperforma tinggi dalam bentuk yang dapat diskalakan.
  • Manajemen sinyal percakapan dan konteks nonverbal:
    • Deteksi "endpointing" untuk menentukan apakah pengguna sudah selesai berbicara.
    • Penyaringan kebisingan latar dan peningkatan deteksi emosi serta afeksi.
  • Penanganan error yang efisien:
    • Mendeteksi panggilan API yang gagal dan segera mencoba ulang.
    • Menyisipkan respons cadangan untuk mencegah percakapan terputus.
  • Integrasi sistem pihak ketiga dan dukungan RAG:
    • Diperlukan integrasi berlatensi rendah dengan basis pengetahuan dan sistem pihak ketiga.
  • Kontrol alur percakapan:
    • Mendukung penanganan percakapan sensitif atau teregulasi melalui desain alur percakapan yang dapat diprediksi.
  • Observabilitas, analitik, pengujian:
    • Mengatasi kurangnya alat untuk melacak kualitas dan performa percakapan dalam skala besar.
  • Contoh platform Vapi: membantu mengurangi kompleksitas infrastruktur suara dan mendukung pembangunan agen suara berkualitas tinggi dengan cepat

3. Aplikasi (Applications)

  • Produk otomasi berbasis suara sedang dikembangkan di berbagai bidang.
  • Karakteristik aplikasi yang paling menonjol:
    • Menangani pekerjaan pelanggan sepenuhnya dan memberikan hasil yang bernilai.
    • Skalabilitas untuk menangani ribuan panggilan sekaligus saat permintaan melonjak.
    • Menyediakan solusi kustom yang terspesialisasi untuk industri tertentu.
  • Peluang utama berdasarkan fungsi
    • Transkripsi (Transcription): membuat catatan percakapan, merekomendasikan tindak lanjut
    • Panggilan masuk (Inbound Calling): manajemen reservasi, konversi calon pelanggan, manajemen customer success
    • Panggilan keluar (Outbound Calling): penyaringan pelamar, konfirmasi janji
    • Pelatihan (Training): pelatihan penjualan atau wawancara.
    • Negosiasi (Negotiation): negosiasi pembelian, sengketa asuransi, penyesuaian kontrak
  • Contoh investasi
    • Abridge: dokumentasi percakapan medis
    • Rilla: coaching penjualan lapangan
    • Rev: menyediakan transkripsi kolaboratif AI dan manusia di berbagai industri

Contoh aplikasi konkret

  • Solusi khusus industri Sameday AI: agen penjualan AI untuk industri layanan rumah. Mengotomatiskan seluruh alur dari menerima panggilan pelanggan → memberikan estimasi berdasarkan masalah → mengatur jadwal → menyelesaikan pembayaran.
  • Panggilan keluar Wayfaster: otomasi proses rekrutmen. Menjalankan panggilan penyaringan pelamar secara otomatis agar fokus pada kandidat terbaik.
  • Kesehatan negosiasi asuransi: menggunakan LLM untuk menganalisis ribuan dokumen asuransi dan catatan pasien, lalu mendukung negosiasi secara real-time.

Prinsip investasi teknologi Voice AI

  • Ekosistem Voice AI memiliki peluang startup terbesar di lapisan platform developer dan aplikasi
  • Kecepatan peningkatan model yang cepat menciptakan lingkungan di mana wirausahawan dapat dengan cepat mengembangkan dan menguji MVP (minimum viable product) yang efektif dengan investasi awal yang kecil
  • 1. Solusi yang terintegrasi secara mendalam dengan workflow spesifik industri dan multimodalitas
    • Aplikasi Voice AI yang paling berdampak terintegrasi secara mendalam dengan workflow industri tertentu
    • Disesuaikan dengan bahasa dan pola percakapan yang khas untuk masing-masing industri
    • Contoh:
      • Agen suara untuk dealer mobil yang terintegrasi dengan CRM memanfaatkan data interaksi pelanggan sebelumnya, meningkatkan kualitas layanan dan mempercepat deployment
      • Menggabungkan suara dengan berbagai modalitas seperti teks dan gambar untuk menyelesaikan proses manusia bertahap yang lebih kompleks
  • 2. Menyediakan produk berkualitas tinggi melalui engineering yang tangguh
    • Membuat demo untuk hackathon relatif mudah, tetapi produk yang sesungguhnya membutuhkan keandalan tinggi, skalabilitas, dan kemampuan menangani use case nyata
    • Kebutuhan perusahaan: performa yang konsisten. Jaminan latensi rendah. Integrasi mulus dengan sistem yang ada
    • Elemen desain utama: menangani input suara yang tidak dapat diprediksi. Memperkuat keamanan. Menjaga uptime yang tinggi
  • 3. Menyeimbangkan pertumbuhan, retensi, dan KPI kualitas produk
    • Agen suara memiliki potensi pertumbuhan kuat di fungsi yang mendorong pendapatan, seperti penjualan.
    • Ketika pelanggan memindahkan workflow inti dari manusia ke agen, penurunan kualitas dapat menyebabkan tingkat churn yang tinggi.

KPI penting dan metrik kualitas

  • Churn (tingkat kehilangan pelanggan):
    • Di tahap awal, banyak aplikasi suara kesulitan karena tingkat churn yang tinggi.
    • Terjadi ketika pelanggan berpindah ke pesaing karena layanan yang tidak dapat diandalkan.
  • Self-Serve Resolution (tingkat penyelesaian mandiri):
    • Menunjukkan seberapa efektif agen suara menyelesaikan masalah pengguna tanpa campur tangan manusia.
  • Customer Satisfaction Score (skor kepuasan pelanggan):
    • Mengukur kepuasan keseluruhan pelanggan yang berinteraksi dengan agen suara, memberi insight kualitas.
  • Call Termination Rates (tingkat penghentian panggilan):
    • Tingkat penghentian yang tinggi menunjukkan masalah dalam pengalaman pengguna dan masalah yang belum terselesaikan.
  • Cohort Call Volume Expansion (ekspansi volume panggilan per kohort):
    • Mengukur apakah pelanggan meningkatkan penggunaan agen suara dari waktu ke waktu, sebagai indikator nilai produk dan keterlibatan pengguna.

Masa depan Voice AI

  • Kemajuan teknologi beberapa tahun terakhir membuka kemungkinan pengembangan produk inovatif yang menyelesaikan masalah kompleks
  • Ke depan, sistem percakapan multimodal dan real-time diharapkan akan menyelesaikan lebih banyak masalah di berbagai industri

1 komentar

 
xguru 2024-11-28

Mungkin karena dulu saya pernah bekerja di bidang IVR, jadi saya cukup tertarik dengan topik ini hehe

Lihat juga artikel Semua hal tentang agen Voice AI yang dirangkum oleh a16z