- Berkat AI generatif, ke depannya manusia tidak perlu lagi melakukan panggilan telepon
- Manusia hanya akan meluangkan waktu untuk panggilan telepon ketika itu memang bernilai
Manfaat bagi perusahaan
- Penghematan waktu dan biaya tenaga kerja yang ditimbulkan oleh penelepon manusia
- Kemungkinan realokasi sumber daya untuk meningkatkan penciptaan pendapatan
- Pengurangan risiko melalui pengalaman pelanggan yang lebih terstandarisasi dan konsisten
Manfaat bagi konsumen
- Agen suara dapat memberikan layanan setingkat manusia tanpa perlu membayar orang sungguhan atau melakukan "matching"
- Saat ini mencakup terapis, pelatih, pendamping, dan lainnya
- Ke depannya kemungkinan akan mencakup pengalaman yang jauh lebih luas yang dibangun dengan suara sebagai pusatnya
- Seperti kebanyakan software konsumen lainnya, "pemenang" kemungkinan tidak dapat diprediksi
Panggilan telepon adalah API untuk berkomunikasi dengan dunia, dan AI membawanya ke tingkat berikutnya
Area yang tampak memiliki peluang
- Ada peluang besar di tiap lapisan seperti pemain infrastruktur, antarmuka konsumen, dan agen enterprise
- Untuk agen suara B2C dan B2B, ada beberapa hipotesis tentang produk baru yang paling menarik:
Karakteristik utama agen suara B2B dan B2C
- Built to scale (dibangun untuk skalabilitas)
- Latensi dan pengalaman percakapan masih belum sepenuhnya terpecahkan
- Sedang mencari pendiri yang punya sudut pandang kuat tentang pembangunan agen
- Berupaya memaksimalkan hal yang paling penting bagi agen (kecepatan, akurasi, tone/emosi, dan sebagainya)
- Vertically focused (fokus secara vertikal)
- Ini bisa berupa agen performer yang bergantung pada model yang disesuaikan secara unik untuk use case tertentu dan integrasi yang erat
- Pendekatan ini lebih mudah dibangun, dibawa ke pasar, dan ditumbuhkan dengan sukses
- Realistic in scope (realistis dalam cakupan)
- Mendelegasikan panggilan penting sepenuhnya kepada AI adalah tantangan besar
- Kami memperkirakan perusahaan agen suara akan melakukan pekerjaan yang belum bisa "diskalakan" dalam jangka pendek
- Ini dapat mencakup tuning per pelanggan atau menyerahkan panggilan ke agen manusia untuk tahap akhir
Stack untuk membangun agen suara
- Agar agen suara dapat bekerja, dibutuhkan hal-hal berikut:
- Mengumpulkan suara manusia (ASR)
- Memproses input ini dengan LLM dan mengembalikan output
- Berbicara kembali kepada manusia (TTS)
- Model multimodal baru seperti GPT-4o dapat mengubah struktur stack dengan "menjalankan" beberapa lapisan ini secara bersamaan melalui satu model
- Ini dapat mengurangi latensi dan biaya, serta menyediakan antarmuka percakapan yang lebih alami
- Banyak agen belum mencapai kualitas yang benar-benar menyerupai manusia dengan stack sintetis di bawah ini
- Dalam beberapa perusahaan/pendekatan, LLM atau serangkaian LLM menangani alur percakapan dan emosi. Dalam kasus lain, ada engine khusus untuk menambahkan emosi dan mengelola interupsi, dan sebagainya
- Penyedia suara "full stack" menawarkan semua ini dalam satu tempat.
- Aplikasi konsumen (B2C) dan enterprise (B2B) berada di atas stack ini.
- Bahkan saat menggunakan penyedia pihak ketiga, aplikasi (umumnya) tetap memasang LLM kustom, yang sering juga berperan sebagai engine percakapan.
Full stack vs. merakit sendiri: perbandingan faktor utama
- Pendiri agen suara dapat memilih antara menjalankan agen di platform full stack (misalnya: Retell, Vapi, Bland) atau merakit stack sendiri.
- Ada beberapa faktor utama saat membuat keputusan ini:
- Complexity (kompleksitas)
- Pemain full stack menyediakan cara yang lebih sederhana untuk membangun agen suara sambil mengabstraksikan kompleksitas sisi infrastruktur
- Ini tetap menyisakan ruang untuk kustomisasi dan tuning seperti memasang prompt atau dokumen pengetahuan (RAG) ke LLM
- Flexibility (fleksibilitas)
- Pendiri yang membangun pasar vertikal dan use case tertentu kemungkinan besar menginginkan fleksibilitas maksimum atas bagaimana tiap lapisan stack bekerja/dijalankan
- Ini juga dapat membantu meminimalkan latensi semaksimal mungkin
- Cost (biaya)
- Penyedia full stack dapat menambahkan tingkat biaya ekstra per panggilan, dan juga mungkin menegosiasikan harga yang lebih baik berdasarkan volume
- Untuk agen suara berskala besar, selisih beberapa sen per panggilan bisa menjadi penting
- Control (kontrol)
- Jika terjadi masalah, pendiri agen suara harus dapat melacak dan menyelesaikannya dengan segera. Ini terutama penting untuk use case yang sensitif
- Mereka juga mungkin memerlukan visibilitas semaksimal mungkin terhadap cara kerja tiap lapisan
- Hal ini bisa lebih mudah dilakukan dengan stack rakitan sendiri
- Complexity (kompleksitas)
- Pemain utama di stack
- Full Stack (full stack) : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion (emosi) : hume
- Text to Speech (teks ke suara) : ElevenLabs, Azure
- Speech to Text (suara ke teks) : Deepgram, Whisper, AssemblyAI, Azure
- Streaming (streaming) : LiveKit, daily
Pandangan kami tentang agen B2B
Evolusi suara AI
- Kita sedang beralih dari suara AI 1.0 (phone tree) ke era suara AI 2.0 (berbasis LLM)
- Perusahaan 2.0 mulai bermunculan dalam sekitar 6 bulan terakhir
- Perusahaan 1.0 mungkin lebih akurat saat ini, tetapi dalam jangka panjang pendekatan 2.0 akan jauh lebih scalable dan akurat
Kebutuhan akan model yang terspesialisasi untuk pasar vertikal
- Tidak akan ada satu model atau platform horizontal yang berlaku untuk semua jenis agen suara enterprise
- Ada beberapa perbedaan utama per pasar vertikal:
- Jenis panggilan, tone, dan struktur
- Integrasi dan proses
- GTM dan "killer feature"
- Ini bisa berarti ledakan pertumbuhan agen vertikal yang sangat opinionated pada UI
- Untuk itu dibutuhkan tim pendiri yang memiliki keahlian atau minat kuat di bidang tersebut
Peluang yang paling dekat
- Bagi perusahaan yang padat tenaga kerja, TAM-nya besar
- Peluang paling dekat bisa berada di industri seperti berikut:
- Tempat yang hidup dan mati dari reservasi lewat telepon
- Tempat yang mengalami kekurangan tenaga kerja yang serius
- Tempat dengan kompleksitas panggilan yang rendah
- Seiring agen menjadi lebih canggih, mereka akan mampu menangani panggilan yang lebih kompleks
Evolusi agen B2B
- Proses evolusi
- IVR (Interactive Voice Response) : model touch-tone tradisional, di mana agen memberikan serangkaian opsi kepada konsumen (1 untuk penjualan, 2 untuk dukungan pelanggan, dan seterusnya) lalu mengarahkan konsumen sesuai pilihan tersebut
- AI 1.0 (Phone Trees) : versi IVR yang lebih fleksibel dan intuitif, di mana konsumen berbicara dalam bahasa alami dan agen mencoba membimbing mereka melalui serangkaian alur percakapan
- AI 2.0 (LLMs) : percakapan bentuk bebas, di mana AI tidak mencoba mencocokkan ucapan manusia ke opsi tertentu yang telah didefinisikan sebelumnya
- Banyak perusahaan agen suara mengambil pendekatan spesifik per pasar vertikal untuk industri tertentu (misalnya layanan otomotif) atau jenis tugas tertentu (misalnya penjadwalan janji temu). Ini karena beberapa alasan:
- Sulitnya eksekusi
- Standar kualitas untuk menyerahkan telepon kepada AI itu tinggi, dan alur percakapan (serta workflow backend di sisi pelanggan) dapat dengan cepat menjadi kompleks atau sangat spesifik
- Perusahaan yang membangun "kasus pengecualian" di pasar vertikal ini memiliki kemungkinan sukses lebih tinggi (misalnya kosakata unik yang mungkin disalahpahami model umum)
- Regulasi dan lisensi
- Beberapa perusahaan agen suara menghadapi pembatasan khusus, sertifikasi yang diwajibkan, dan sebagainya
- Contoh yang representatif adalah bidang kesehatan (misalnya kepatuhan HIPAA), tetapi ini juga muncul pada kategori seperti penjualan yang memiliki regulasi AI cold calling di tingkat negara
- Integrasi
- Di beberapa kategori, untuk mewujudkan pengalaman pengguna yang baik (baik untuk perusahaan maupun konsumen), mungkin dibutuhkan integrasi long-tail atau integrasi khusus. Ini tidak layak dibangun kecuali ingin menangani use case tertentu
- Jalan masuk ke software lain
- Suara secara alami dapat masuk ke tindakan inti pelanggan seperti pemesanan, perpanjangan, penawaran harga, dan sebagainya
- Dalam beberapa kasus, ini bisa menjadi pijakan untuk berkembang ke platform SaaS vertikal yang lebih luas bagi perusahaan-perusahaan tersebut, terutama jika basis pelanggannya masih beroperasi secara offline
- Sulitnya eksekusi
Agen B2B: area yang tampak memiliki peluang
Berbasis LLM — tetapi tidak harus 100% otomatis sejak hari pertama
- Bentuk "kuat" dari agen suara AI adalah percakapan yang sepenuhnya dipandu LLM, bukan pendekatan IVR atau phone tree
- Namun karena LLM belum bisa diandalkan 100% sepanjang proses, untuk transaksi yang lebih sensitif atau lebih besar kemungkinan akan tetap ada "human-in-the-loop" (sementara)
- Ini juga membuat workflow spesifik per pasar vertikal menjadi sangat penting, karena dapat memaksimalkan probabilitas keberhasilan sambil meminimalkan edge case dan intervensi manusia
Tuning model kustom vs. pendekatan prompt pada LLM
- Agen suara B2B perlu menangani percakapan yang terspesialisasi (atau spesifik per pasar vertikal) yang kemungkinan tidak cukup ditangani oleh LLM umum
- Banyak perusahaan melakukan tuning model per pelanggan (menggunakan beberapa ratus hingga ribuan data point rendah), lalu kemungkinan mengekstrapolasikannya menjadi model dasar di tingkat perusahaan
- Tuning kustom untuk pelanggan enterprise juga bisa terus berlanjut
- Catatan: beberapa perusahaan melakukan tuning pada model "umum" (yang akan digunakan di seluruh pelanggan) agar sesuai dengan use case tertentu, lalu melakukan prompting per pelanggan
Tim teknis dengan keahlian domain
- Mengingat kompleksitasnya, latar belakang AI sebelumnya akan membantu untuk membangun dan menskalakan agen suara B2B berkualitas tinggi
- Namun, memahami cara mengemas produk dan menancapkan wedge di pasar vertikal juga kemungkinan sama pentingnya, karena itu membutuhkan keahlian domain atau minat yang kuat
- Anda tidak perlu gelar PhD AI untuk membangun dan meluncurkan agen suara enterprise!
Sudut pandang tajam tentang integrasi + ekosistem
- Serupa dengan poin di atas, pembeli di tiap pasar vertikal biasanya memiliki beberapa fitur atau integrasi tertentu yang ingin mereka lihat sebelum membeli
- Dalam praktiknya, inilah yang bisa menjadi bukti bahwa penilaian produk naik dari "berguna" menjadi "ajaib"
- Ini adalah alasan lain mengapa masuk akal untuk memulai dalam keadaan yang cukup tervirtualisasi secara vertikal
Gerakan "enterprise-grade" atau product-led growth (PLG) yang kuat
- Untuk pasar vertikal yang pendapatannya sangat terkonsentrasi pada perusahaan/penyedia papan atas, perusahaan agen suara dapat mulai dari perusahaan besar lalu pada akhirnya "menular ke bawah" ke UKM lewat produk self-service
- Pelanggan UKM sangat menginginkan solusi ini dan bersedia menguji berbagai opsi, tetapi mereka mungkin tidak dapat menyediakan data dengan skala/kualitas yang memungkinkan startup menyesuaikan model hingga level enterprise
Pandangan kami tentang agen B2C
Perbedaannya dengan B2B
- Di B2B, agen suara terutama menggantikan panggilan telepon yang sudah ada untuk menyelesaikan tugas tertentu
- Untuk agen konsumen, pengguna harus memilih untuk terus terlibat, dan ini sulit karena berinteraksi lewat suara tidak selalu nyaman
- Ini berarti standar produk menjadi "lebih tinggi"
Bidang penerapan pertama
- Bidang penerapan pertama dan paling jelas untuk agen suara konsumen adalah menggantikan layanan manusia yang mahal atau sulit diakses dengan AI
- Ini mencakup terapi, coaching, tutoring, dan semua hal berbasis percakapan yang dapat diselesaikan secara virtual
Kemungkinan ke depan
- Namun, kami percaya sihir sejati dari agen suara B2C masih belum datang!
- Kami mencari produk yang memungkinkan jenis "percakapan" baru yang sebelumnya tidak ada dengan memanfaatkan kekuatan suara
- Ini bisa menciptakan ulang bentuk layanan yang ada atau melahirkan layanan yang sepenuhnya baru
Meniru koneksi manusia
- Untuk produk yang mengeksekusi UX dengan baik, agen suara memberi peluang untuk menarik konsumen ke tingkat yang belum pernah terlihat sebelumnya dalam software
- Ini benar-benar meniru koneksi manusia
- Ini bisa muncul sebagai agen itu sendiri sebagai produk, atau sebagai mode suara dari produk yang lebih luas
Evolusi agen B2C
- Hingga saat ini, agen suara AI konsumen yang dominan berasal dari perusahaan besar seperti ChatGPT Voice dan aplikasi Pi milik Inflection.
- Ada beberapa alasan mengapa suara konsumen muncul lebih lambat:
Keunggulan perusahaan besar
- Perusahaan besar sudah memiliki jalur distribusi konsumen serta model kelas atas dari sisi akurasi, latensi, dan sebagainya
- Suara tidak mudah disediakan dalam skala besar, terutama jika mempertimbangkan peluncuran GPT-4o baru-baru ini
Sulitnya adopsi perilaku baru
- Agen suara B2B "memasang" AI ke proses yang sudah ada, sedangkan agen suara B2C mengharuskan pengguna mengadopsi perilaku baru
- Ini bisa memerlukan produk yang lebih lambat atau lebih terasa ajaib
Persepsi negatif terhadap voice AI yang ada
- Konsumen mungkin tidak terinspirasi untuk mencoba aplikasi baru karena mereka sudah terpengaruh negatif oleh pengalaman produk seperti Siri
Produk berbasis luas memenuhi use case dasar
- Produk berbasis luas umumnya dapat menyediakan use case dasar dari voice AI (tutoring, companionship, dan sebagainya)
- Startup voice B2C kini mulai menciptakan use case atau pengalaman yang tidak akan ditangani oleh ChatGPT, Pi, dan lainnya
Agen B2C: area yang tampak memiliki peluang
Sudut pandang kuat tentang mengapa suara dibutuhkan
- Kami menantikan produk dan pendiri yang punya pandangan jelas tentang bagaimana suara menghadirkan nilai unik pada produk
- Bukan sekadar "suara demi suara"
- Dalam banyak kasus, antarmuka suara justru lebih negatif dibanding antarmuka teks karena lebih tidak nyaman untuk mengonsumsi dan mengekstrak informasi
Sudut pandang kuat tentang mengapa suara real-time dibutuhkan
- Suara sulit untuk dikonsumsi, sementara suara real-time lebih sulit lagi (dibanding pesan suara asinkron)
- Kami menantikan pendiri yang punya pandangan mengapa produk mereka harus dibangun di sekitar percakapan real-time
- Mungkin untuk companionship yang menyerupai manusia, lingkungan latihan, dan sebagainya
Tidak serupa dengan "produk" pra-AI
- Kami menduga bentuk kuat dari produk ini bukanlah sekadar memindahkan langsung percakapan antarmanusia lama di mana agen suara AI hanya menggantikan penyedia manusia
- Pertama, sulit memenuhi standar itu
- Yang lebih penting, ada peluang untuk menggunakan AI agar nilai yang sama dapat disampaikan dengan lebih baik (lebih efisien, lebih menyenangkan)
Vertikalisasi di mana kualitas model bukan penentu pemenang
- Produk AI konsumen umum utama (ChatGPT, Pi, Claude) memiliki mode suara berkualitas tinggi
- Mereka dapat terlibat secara bermakna dalam banyak jenis percakapan dan interaksi
- Karena mereka meng-host model dan stack mereka sendiri, dalam jangka pendek mereka kemungkinan akan unggul dalam latensi dan alur percakapan
Kami berharap startup berhasil dengan cara berikut:
- menyesuaikan atau melakukan tuning untuk jenis percakapan tertentu, atau
- membangun UI yang memberi lebih banyak konteks dan nilai pada pengalaman agen suara
- (misalnya: melacak kemajuan dari waktu ke waktu, mengarahkan percakapan/pengalaman dengan cara yang opinionated)
1 komentar
Saya sempat mendapat kesempatan untuk melihat dari dekat tim integrasi di sebuah perusahaan enterprise, dan bisa menyaksikan secara real time proyek yang berjalan dengan pola mirip seperti yang dibahas di artikel.
Awalnya tujuan mereka adalah mengotomatisasi CS melalui AWS Connect, lalu berkembang hingga menangani pemrosesan distribusi trafik, ikut serta dalam perencanaan layanan khusus untuk pelanggan VVIP, dan seterusnya.... Menarik juga melihat cakupannya makin lama makin besar.
Jadinya, kalau jujur, arah layanannya memang seperti ini: pelanggan yang tidak terlalu menghasilkan uang sebisa mungkin ditangani oleh bot respons otomatis, sementara pelanggan dengan dana titipan besar dihubungi langsung secepat mungkin oleh agen manusia. Ya, mungkin memang tidak terhindarkan hehe