Thesis kami - "Mengapa suara?"
- Suara berperan sebagai terobosan kuat dari sisi kegunaan AI
- Dari sisi perusahaan, AI memungkinkan penggantian tenaga kerja dan respons pelanggan 24 jam
- Dari sisi konsumen juga ada pandangan bahwa suara akan menjadi antarmuka AI utama
- Saat ini infrastruktur suara AI sudah cukup mapan, dan suara mulai dimanfaatkan secara serius di berbagai aplikasi
- Seiring peningkatan performa model, ada pandangan bahwa suara itu sendiri bukan lagi produk, melainkan akan berfungsi sebagai ‘wedge’ untuk masuk ke pasar
Hal-hal baru yang telah diumumkan sejauh ini
- Mei 2024: OpenAI merilis GPT-4o voice dan memperkenalkan kemampuan respons suara real-time, Cartesia mengumumkan Sonic
- Juni 2024: Character memperkenalkan fitur panggilan suara dalam versi beta, Apple mengumumkan integrasi ChatGPT ke Siri
- Juli 2024: OpenAI melanjutkan rollout Advanced Voice, Speechmatics merilis model Flow
- Agustus 2024: Amazon mengintegrasikan Claude ke Alexa, Meta menghadirkan pendamping AI dengan suara selebritas
- September 2024: NotebookLM mendapat perhatian lewat Audio Overview, PlayHT merilis model 2.0
- Oktober 2024: OpenAI merilis real-time API, Kyutai mengumumkan model Moshi
- November 2024: ElevenLabs meluncurkan Conversational AI, NVIDIA mengumumkan model Fugatto, Gemini Live merilis aplikasi real-time
- Desember 2024: ChatGPT Advanced Voice Mode ditambahkan pencarian internet, peluncuran 1-800-CHATGPT juga menarik perhatian
Apa yang berubah?
- Infrastruktur model menjadi lebih sederhana, dan muncul voice agent dengan latensi rendah serta performa tinggi
- Model percakapan generasi baru dalam 6 bulan terakhir menjadi pendorong utama peningkatan performa ini
- Biaya juga terus turun; pada Desember 2024 OpenAI memangkas harga GPT-4o real-time API secara signifikan
- GPT-4o mini juga tersedia dalam versi real-time
Situasi saat ini
-
Kualitas model
- Kualitas percakapan (latensi, kemampuan interupsi, ekspresi emosi, dll.) pada umumnya sudah banyak teratasi
- Berkat perkembangan model suara real-time OpenAI dan model lain, ada kasus yang menunjukkan performa lebih baik daripada call center/BPO
-
GTM(go-to-market)
- Produk agent dapat menyebar cepat karena langsung menggantikan tenaga kerja
- Namun hambatan masuk juga rendah, sementara perusahaan besar yang konservatif memiliki hambatan adopsi yang tinggi
- Eksekusi GTM dan tahap produk tambahan (act 2) adalah faktor kunci keberhasilan
-
Monetisasi
- Pada awalnya tarif berbasis per menit dominan, tetapi karena biaya model turun drastis, tekanan harga makin besar
- Ke depan diperkirakan akan muncul model penagihan gabungan: biaya platform + berbasis pemakaian
-
Persaingan
- Voice agent untuk perusahaan bersaing di antara platform berfokus developer, platform umum berbentuk no-code, dan solusi khusus industri tertentu
- Persaingan diperkirakan akan semakin sengit
Evolusi pasar
- Pada paruh kedua 2024, pasar voice agent tumbuh sangat cepat
- Berbagai produk sedang menambahkan fitur suara
- Penggalangan dana baru dan akuisisi pelanggan nyata berlangsung aktif di berbagai layer stack suara percakapan
- Khususnya di perusahaan besar, ada kecenderungan untuk tidak langsung mengganti seluruh pekerjaan panggilan manusia dengan AI, melainkan memulai dari jenis panggilan tertentu lalu memperluasnya secara bertahap
- Panggilan malam hari·kelebihan beban: panggilan yang biasanya berakhir di voicemail bisa ditangani AI untuk mengumpulkan informasi dan memproses transaksi pada tingkat tertentu
- Panggilan outbound baru: panggilan yang sebelumnya tidak dilakukan karena tidak ekonomis kini menjadi mungkin, sehingga diharapkan memberi tambahan pendapatan atau penghematan biaya
- Panggilan ‘back office’: otomatisasi tugas yang mengharuskan menelepon perusahaan atau institusi lain dapat meningkatkan efisiensi
Evolusi pasar - contoh penggalangan dana
-
Perusahaan model
- ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI, dan lainnya terus mengumumkan penggalangan dana besar dari seed round hingga seri B
-
Platform umum
- Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland, dan lainnya menggalang pendanaan seri A hingga C
- Perusahaan seperti 11x, Decagon, Sierra, Artisan yang fokus pada industri tertentu (sales, customer support, dll.) juga mendapat perhatian
- Platform developer seperti Vapi dan Retell AI juga bermunculan
-
Platform vertikal
- Banyak startup mendapat pendanaan di area khusus seperti healthcare, HR, dan respons darurat, termasuk Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad
- Wayfaster dan HappyRobot juga berhasil menggalang dana di bidang seperti logistik dan wawancara
Pasar vertikal penting
- Tempat yang paling mungkin mengadopsi voice agent lebih dulu adalah industri dengan pengeluaran call center/BPO yang besar
- Industri utama seperti keuangan, asuransi, B2C, B2B, pemerintah, dan healthcare kemungkinan besar akan memiliki solusi suara khusus masing-masing
- Diperkirakan para founder akan aktif mencoba di bidang-bidang berikut
- Financial services (mis: penagihan utang)
- Insurance (respons pelanggan dan back office)
- Government
- Support services (respons pelanggan yang kompleks seperti dukungan TI yang memerlukan pengetahuan khusus)
- Bahkan di luar kategori call center, telah terlihat willingness to pay untuk AI voice agent yang digunakan untuk coaching/training pada profesi bergaji tinggi
- Voice agent yang realistis dapat berperan sebagai ‘simulator’ dan sangat meningkatkan kemampuan kerja
- Dengan ini, biaya tenaga kerja seperti sales coach atau software lama yang tidak efisien dapat digantikan
Vertikal yang patut diperhatikan - tren perusahaan YC
- Jumlah perusahaan voice agent yang mengikuti YC meningkat dengan cepat
- B2B (~69%) dan healthcare (~18%) mendominasi, dan di subbidang B2B terdapat banyak startup terkait fintech dan customer support
- Bidang healthcare terbagi menjadi front office (untuk pasien) dan back office (untuk apotek, perusahaan asuransi, dll.)
- Secara keseluruhan, startup sedang mencoba menyelesaikan berbagai masalah industri dengan voice agent
Yang kami cari
- Industri di mana telepon adalah kanal inti, atau telepon paling optimal dari sisi regulasi maupun efisiensi
- Telepon menjadi sarana utama untuk demo pelanggan (mis: logistik)
- Panggilan lebih efektif secara regulasi (mis: penagihan utang)
- Area di mana tingkat keberhasilan lebih tinggi dibanding pendekatan lain (mis: healthcare)
- Struktur panggilan harus jelas dan dapat diukur
- Data point yang perlu dikumpulkan atau informasi yang harus disampaikan jelas
- Hasilnya mudah diukur, sehingga perusahaan dapat mempertimbangkan adopsi AI voice agent tanpa beban besar
- Harus mampu mengurangi biaya tenaga kerja lebih dari 50% sambil menghasilkan performa setara manusia
- Adopsi lebih mudah dalam skenario ketika tenaga kerja yang digantikan jelas atau bisa direalokasi
- Karena secara internal mungkin ada skeptisisme terhadap AI, ROI harus sangat besar
- Panggilan merupakan ‘masalah yang menyangkut kelangsungan’ bagi pelanggan, tetapi pihak yang melakukan atau menerima panggilan masih bisa mentoleransi kegagalan
- Sering dimulai dari panggilan malam hari·overflow atau panggilan ‘subprime’
- AI lebih mudah masuk di area dengan standar performa yang rendah
- Efek efisiensi panggilan besar di area yang langsung menghasilkan pendapatan (mis: reservasi baru, pembayaran) atau area dengan biaya tinggi (mis: drive-thru)
- Untuk masuk ke SMB/mid-market, harus memungkinkan integrasi VoIP sederhana atau self-setup
- Untuk enterprise, semakin kompleks integrasi awalnya, semakin besar hambatan masuknya, namun jika dibangun dengan baik akan menjadi keunggulan kompetitif
- Atau bisa dimulai dengan mudah melalui kompleksitas integrasi yang rendah, lalu diperluas secara bertahap
- Secara umum, pasar sangat tertarik pada solusi yang sekaligus mencapai tingkat keberhasilan tinggi dan penghematan biaya besar
Studi kasus - wawancara suara AI
- Pada awalnya, penerapan suara AI pada wawancara kerja yang kompleks dan sensitif terlihat cukup tidak terduga
- Namun di industri staffing, ini sangat efektif untuk menangani wawancara massal dan berulang
- Wawancara bisa dilakukan lebih cepat dan lebih konsisten tanpa merusak pengalaman kandidat
- AI dapat langsung melakukan wawancara saat dibutuhkan, atau menilai kandidat tanpa hambatan bahasa/aksen
- Khususnya untuk peran teknis, ada umpan balik bahwa AI dapat memberi penilaian lebih akurat daripada staf HR umum
- Perusahaan merasakan manfaat berupa naiknya tingkat kelulusan wawancara dan proses pencocokan kandidat yang lebih cepat
1 komentar
Semua hal tentang agen suara AI yang dirangkum oleh a16z