- Voice AI bukan sekadar peningkatan UI, tetapi inovasi pada cara bisnis terhubung dengan pelanggan
- Seperti layanan pelanggan maskapai: waktu tunggu yang lama, pilihan menu yang berulang, dan kurangnya pemahaman atas situasi pelanggan. Masalah tidak terselesaikan, sementara stres dan pemborosan waktu justru bertambah
- Dengan Voice AI, berbeda dari sistem IVR (respons suara interaktif) tradisional yang kaku, dimungkinkan menghadirkan pengalaman yang bercakap seperti manusia dan mempersonalisasi pengalaman pelanggan, serta tersedia 24 jam
- Memahami situasi pelanggan secara langsung dan menawarkan alternatif terbaik
- Contoh: memesan ulang penerbangan yang dibatalkan secara otomatis, merekomendasikan alternatif berdasarkan preferensi pelanggan
- Dalam beberapa situasi, pelanggan mungkin lebih memilih agen AI dibanding manusia
- Voice AI memenuhi permintaan dan ekspektasi pelanggan yang tinggi sekaligus meningkatkan efisiensi operasional
- Voice AI adalah perpaduan model AI native suara dan teknologi multimodal
Pasar besar komunikasi suara
- Manusia lebih suka berbicara:
- Miliaran panggilan telepon terjadi setiap hari
- Meski teks, email, dan media sosial sudah umum digunakan, telepon masih menjadi sarana komunikasi utama di banyak bisnis
- Di berbagai industri seperti layanan kesehatan, layanan hukum, layanan rumah, asuransi, dan logistik, telepon tetap penting untuk menyampaikan informasi kompleks, memberikan layanan yang dipersonalisasi, dan menangani situasi mendesak
- Masalah dalam komunikasi telepon tradisional
- Kurangnya tingkat respons:
- 62% SMB (usaha kecil dan menengah) gagal memenuhi kebutuhan pelanggan dan kehilangan peluang bisnis karena melewatkan panggilan telepon
- Masalah umum:
- Di luar jam kerja, panggilan dialihkan ke voicemail
- Hanya bisa menangani satu panggilan dalam satu waktu
- Kualitas dukungan tidak konsisten
- Keterbatasan teknis:
- Sistem IVR (diperkenalkan pada 1970-an):
- Hanya dapat menangani perintah yang telah ditentukan sebelumnya, kurang fleksibel: "Tekan 1 untuk membuat reservasi" "Sebutkan secara singkat bagian yang ingin Anda bantu"
- Tidak memahami niat atau urgensi pelanggan
- Penurunan pengalaman pelanggan:
- Waktu tunggu lama
- Navigasi menu yang tidak efisien
- Gagal menyelesaikan masalah
- Meski permintaannya tinggi:
- Teknologi lama memiliki keterbatasan dalam menyelesaikan masalah pelanggan secara efisien dan nyaman
- Dibutuhkan teknologi otomasi suara yang lebih maju
[Mengapa sekarang adalah waktu yang tepat untuk mengembangkan teknologi Voice]
Evolusi teknologi suara
- Sistem IVR awal:
- Teknologi IVR (Interactive Voice Response) yang diperkenalkan pada 1970-an:
- Hanya mampu memproses perintah yang telah ditentukan
- Tidak memahami niat dan urgensi pengguna
- Meski kurang disukai, pasar ini tetap bernilai $5 miliar
- Kemunculan teknologi ASR/STT:
- Model Automatic Speech Recognition (ASR) dan Speech-to-Text (STT):
- Teknologi yang mengubah suara menjadi teks secara real-time
- Munculnya startup seperti Gong, Rev, dan DeepL
- Peluncuran model Whisper dari OpenAI (2022) dan Reverb dari Rev (2024):
- Mendukung sistem percakapan alami yang dapat menangani aksen, kebisingan latar, emosi, dan lainnya
- Inovasi terbaru: perkembangan Voice AI:
- Pengembangan model Text-To-Speech(TTS) yang menghasilkan suara kaya emosi:
- Kemampuan multimodal:
- Google Gemini 1.5: mengintegrasikan input suara, teks, dan visual
- Voice Engine dari OpenAI: menghasilkan suara yang meniru percakapan manusia
- Peluncuran GPT-4o:
- Integrasi native real-time untuk audio, visi, dan teks
- Mampu menangani percakapan kompleks dan memberikan respons cerdas
Dua kemajuan utama yang didorong inovasi terbaru
- Penyebaran model berkualitas tinggi dan pengembangan aplikasi:
- Keterbatasan arsitektur "cascading" sebelumnya:
- Dalam proses konversi STT → LLM → TTS, terjadi latensi dan hilangnya informasi non-teks
- Latensi respons yang tinggi menimbulkan pengalaman pengguna yang negatif
- Model baru:
- GPT-4 Turbo: mengurangi latensi
- Model dapat dipilih sesuai use case
- Munculnya model Speech-to-Speech(STS):
- Memproses suara secara langsung tanpa mengubahnya menjadi teks:
- Ultra-low latency: waktu respons sekitar 300 ms memungkinkan percakapan yang alami
- Pemahaman konteks: mempertahankan informasi percakapan sebelumnya, memahami niat dan emosi
- Peningkatan pengenalan emosi dan nada: memberikan respons yang mencerminkan emosi dan perasaan
- Deteksi aktivitas suara real-time: pengguna dapat berbicara tanpa percakapan terasa terputus
Model native suara: masa depan percakapan suara
- Mengatasi keterbatasan arsitektur cascading:
- Model STS khusus suara:
- Kyutai Moshi: model open source
- Alibaba SenseVoice & CosyVoice: model khusus suara
- Hume Empathetic Voice Interface: menangani respons emosional
- Realtime API dari OpenAI:
- Mendukung interaksi Speech-to-Speech berbasis GPT-4o
Tantangan utama dalam adopsi industri
Tiga faktor utama yang menghambat penerapan agen suara
- Kualitas (Quality):
- Banyak agen Voice AI masih belum cukup stabil untuk dipercaya di berbagai use case.
- Perusahaan umumnya mencoba agen suara lebih dulu di lingkungan berisiko rendah:
- Contoh: perusahaan kecil perbaikan atap menggunakan agen untuk menangani panggilan di luar jam kerja
- Saat diperluas ke use case bernilai tinggi, standar kualitas menjadi jauh lebih ketat
- Contoh: jika satu panggilan pelanggan bisa berujung pada proyek senilai $30.000, toleransi terhadap kegagalan panggilan menjadi sangat rendah
- Kepercayaan (Trust):
- Pelanggan sudah berkali-kali mengalami pengalaman negatif akibat teknologi IVR yang ada:
- Respons lambat, struktur menu yang tidak efisien, kurangnya percakapan yang alami
- Perusahaan perlu membangun kepercayaan bahwa AI dapat menangani kebutuhan pelanggan dengan akurat dan cepat
- Keandalan (Reliability):
- Contoh keluhan utama:
- Panggilan terputus: pelanggan frustrasi karena percakapan berhenti
- Halusinasi (Hallucination): AI memberikan jawaban yang tidak akurat atau melenceng
- Latensi respons: waktu pemrosesan yang panjang membuat pelanggan pergi
Arah pengembangan untuk menyelesaikan masalah
- Optimasi latensi dan keandalan:
- Meningkatnya platform developer yang menyediakan infrastruktur yang lebih andal: berfokus pada pengurangan latensi dan pencegahan putusnya percakapan
- Pemulihan yang graceful (Fail Gracefully):
- Saat panggilan gagal, memulihkan alur percakapan secara alami: meminimalkan gangguan pada pengalaman pelanggan
- Orkestrasi percakapan:
- Agen AI dirancang agar mengikuti alur yang dapat diprediksi: meminimalkan halusinasi dan menetapkan guardrail pada informasi serta cakupan percakapan yang boleh diberikan ke pelanggan
Peta pasar Voice AI
- Di pasar Voice AI, inovasi terjadi di berbagai lapisan, mulai dari model dasar, infrastruktur suara, platform developer, hingga aplikasi
- Secara khusus, peluang penting terlihat di tiga area inti berikut
1. Model (Models)
- Fungsi: membangun teknologi yang mendukung use case berbasis suara, dengan spesialisasi pada SST(Speech-to-Speech), LLS(Large Language Models), TTS(Text-to-Speech), dan teknologi tertentu lainnya
- Arah masa depan:
- Model multimodal dan native suara akan memimpin
- Teknologi yang dapat memproses audio secara langsung tanpa konversi teks-audio akan menjadi penting
- Model generasi berikutnya:
- Perusahaan seperti Cartesia merintis arsitektur baru dengan memanfaatkan State Space Models(SSMs)
- Pemrosesan percakapan sederhana dipisahkan ke model kecil, sementara tugas kompleks ke model yang lebih kuat, sehingga diharapkan mengurangi latensi dan biaya
2. Platform developer (Developer Platforms)
- Membangun agen Voice AI dan mengelola infrastruktur suara real-time masih menjadi tantangan teknis besar bagi developer. Platform baru mengatasi kompleksitas ini dan memberikan berbagai dukungan bagi developer
- Optimasi latensi dan keandalan:
- Mengelola agen suara real-time berperforma tinggi dalam bentuk yang dapat diskalakan.
- Manajemen sinyal percakapan dan konteks nonverbal:
- Deteksi "endpointing" untuk menentukan apakah pengguna sudah selesai berbicara.
- Penyaringan kebisingan latar dan peningkatan deteksi emosi serta afeksi.
- Penanganan error yang efisien:
- Mendeteksi panggilan API yang gagal dan segera mencoba ulang.
- Menyisipkan respons cadangan untuk mencegah percakapan terputus.
- Integrasi sistem pihak ketiga dan dukungan RAG:
- Diperlukan integrasi berlatensi rendah dengan basis pengetahuan dan sistem pihak ketiga.
- Kontrol alur percakapan:
- Mendukung penanganan percakapan sensitif atau teregulasi melalui desain alur percakapan yang dapat diprediksi.
- Observabilitas, analitik, pengujian:
- Mengatasi kurangnya alat untuk melacak kualitas dan performa percakapan dalam skala besar.
- Contoh platform Vapi: membantu mengurangi kompleksitas infrastruktur suara dan mendukung pembangunan agen suara berkualitas tinggi dengan cepat
3. Aplikasi (Applications)
- Produk otomasi berbasis suara sedang dikembangkan di berbagai bidang.
- Karakteristik aplikasi yang paling menonjol:
- Menangani pekerjaan pelanggan sepenuhnya dan memberikan hasil yang bernilai.
- Skalabilitas untuk menangani ribuan panggilan sekaligus saat permintaan melonjak.
- Menyediakan solusi kustom yang terspesialisasi untuk industri tertentu.
- Peluang utama berdasarkan fungsi
- Transkripsi (Transcription): membuat catatan percakapan, merekomendasikan tindak lanjut
- Panggilan masuk (Inbound Calling): manajemen reservasi, konversi calon pelanggan, manajemen customer success
- Panggilan keluar (Outbound Calling): penyaringan pelamar, konfirmasi janji
- Pelatihan (Training): pelatihan penjualan atau wawancara.
- Negosiasi (Negotiation): negosiasi pembelian, sengketa asuransi, penyesuaian kontrak
- Contoh investasi
- Abridge: dokumentasi percakapan medis
- Rilla: coaching penjualan lapangan
- Rev: menyediakan transkripsi kolaboratif AI dan manusia di berbagai industri
Contoh aplikasi konkret
- Solusi khusus industri Sameday AI: agen penjualan AI untuk industri layanan rumah. Mengotomatiskan seluruh alur dari menerima panggilan pelanggan → memberikan estimasi berdasarkan masalah → mengatur jadwal → menyelesaikan pembayaran.
- Panggilan keluar Wayfaster: otomasi proses rekrutmen. Menjalankan panggilan penyaringan pelamar secara otomatis agar fokus pada kandidat terbaik.
- Kesehatan negosiasi asuransi: menggunakan LLM untuk menganalisis ribuan dokumen asuransi dan catatan pasien, lalu mendukung negosiasi secara real-time.
Prinsip investasi teknologi Voice AI
- Ekosistem Voice AI memiliki peluang startup terbesar di lapisan platform developer dan aplikasi
- Kecepatan peningkatan model yang cepat menciptakan lingkungan di mana wirausahawan dapat dengan cepat mengembangkan dan menguji MVP (minimum viable product) yang efektif dengan investasi awal yang kecil
- 1. Solusi yang terintegrasi secara mendalam dengan workflow spesifik industri dan multimodalitas
- Aplikasi Voice AI yang paling berdampak terintegrasi secara mendalam dengan workflow industri tertentu
- Disesuaikan dengan bahasa dan pola percakapan yang khas untuk masing-masing industri
- Contoh:
- Agen suara untuk dealer mobil yang terintegrasi dengan CRM memanfaatkan data interaksi pelanggan sebelumnya, meningkatkan kualitas layanan dan mempercepat deployment
- Menggabungkan suara dengan berbagai modalitas seperti teks dan gambar untuk menyelesaikan proses manusia bertahap yang lebih kompleks
- 2. Menyediakan produk berkualitas tinggi melalui engineering yang tangguh
- Membuat demo untuk hackathon relatif mudah, tetapi produk yang sesungguhnya membutuhkan keandalan tinggi, skalabilitas, dan kemampuan menangani use case nyata
- Kebutuhan perusahaan: performa yang konsisten. Jaminan latensi rendah. Integrasi mulus dengan sistem yang ada
- Elemen desain utama: menangani input suara yang tidak dapat diprediksi. Memperkuat keamanan. Menjaga uptime yang tinggi
- 3. Menyeimbangkan pertumbuhan, retensi, dan KPI kualitas produk
- Agen suara memiliki potensi pertumbuhan kuat di fungsi yang mendorong pendapatan, seperti penjualan.
- Ketika pelanggan memindahkan workflow inti dari manusia ke agen, penurunan kualitas dapat menyebabkan tingkat churn yang tinggi.
KPI penting dan metrik kualitas
- Churn (tingkat kehilangan pelanggan):
- Di tahap awal, banyak aplikasi suara kesulitan karena tingkat churn yang tinggi.
- Terjadi ketika pelanggan berpindah ke pesaing karena layanan yang tidak dapat diandalkan.
- Self-Serve Resolution (tingkat penyelesaian mandiri):
- Menunjukkan seberapa efektif agen suara menyelesaikan masalah pengguna tanpa campur tangan manusia.
- Customer Satisfaction Score (skor kepuasan pelanggan):
- Mengukur kepuasan keseluruhan pelanggan yang berinteraksi dengan agen suara, memberi insight kualitas.
- Call Termination Rates (tingkat penghentian panggilan):
- Tingkat penghentian yang tinggi menunjukkan masalah dalam pengalaman pengguna dan masalah yang belum terselesaikan.
- Cohort Call Volume Expansion (ekspansi volume panggilan per kohort):
- Mengukur apakah pelanggan meningkatkan penggunaan agen suara dari waktu ke waktu, sebagai indikator nilai produk dan keterlibatan pengguna.
Masa depan Voice AI
- Kemajuan teknologi beberapa tahun terakhir membuka kemungkinan pengembangan produk inovatif yang menyelesaikan masalah kompleks
- Ke depan, sistem percakapan multimodal dan real-time diharapkan akan menyelesaikan lebih banyak masalah di berbagai industri
1 komentar
Mungkin karena dulu saya pernah bekerja di bidang IVR, jadi saya cukup tertarik dengan topik ini hehe
Lihat juga artikel Semua hal tentang agen Voice AI yang dirangkum oleh a16z