a16z: Kondisi Terkini AI Voice Agent - 2025

xguru · 2025-02-06T09:48:02+09:00

Thesis kami - "Mengapa suara?" Suara berperan sebagai terobosan kuat dari sisi kegunaan AI Dari sisi perusahaan, AI memungkinkan penggantian tenaga kerja dan respons pelanggan 24 jam Dari sisi konsumen juga ada pandangan bahwa suara akan menjadi antarmuka AI utama Saat ini infrastruktur suara AI sudah cukup mapan, dan suara mulai dimanfaatkan secara serius di berbagai aplikasi Seiring peningkatan performa model, ada pandangan bahwa suara itu sendiri bukan lagi produk, melainkan akan berfungsi sebagai ‘wedge’ untuk masuk ke pasar Hal-hal baru yang telah diumumkan sejauh ini Mei 2024: OpenAI merilis GPT-4o voice dan memperkenalkan kemampuan respons suara real-time, Cartesia mengumumkan Sonic Juni 2024: Character memperkenalkan fitur panggilan suara dalam versi beta, Apple mengumumkan integrasi ChatGPT ke Siri Juli 2024: OpenAI melanjutkan rollout Advanced Voice, Speechmatics merilis model Flow Agustus 2024: Amazon mengintegrasikan Claude ke Alexa, Meta menghadirkan pendamping AI dengan suara selebritas September 2024: NotebookLM mendapat perhatian lewat Audio Overview, PlayHT merilis model 2.0 Oktober 2024: OpenAI merilis real-time API, Kyutai mengumumkan model Moshi November 2024: ElevenLabs meluncurkan Conversational AI, NVIDIA mengumumkan model Fugatto, Gemini Live merilis aplikasi real-time Desember 2024: ChatGPT Advanced Voice Mode ditambahkan pencarian internet, peluncuran 1-800-CHATGPT juga menarik perhatian Apa yang berubah? Infrastruktur model menjadi lebih sederhana, dan muncul voice agent dengan latensi rendah serta performa tinggi Model percakapan generasi baru dalam 6 bulan terakhir menjadi pendorong utama peningkatan performa ini Biaya juga terus turun; pada Desember 2024 OpenAI memangkas harga GPT-4o real-time API secara signifikan GPT-4o mini juga tersedia dalam versi real-time Situasi saat ini Kualitas model Kualitas percakapan (latensi, kemampuan interupsi, ekspresi emosi, dll.) pada umumnya sudah banyak teratasi Berkat perkembangan model suara real-time OpenAI dan model lain, ada kasus yang menunjukkan performa lebih baik daripada call center/BPO GTM(go-to-market) Produk agent dapat menyebar cepat karena langsung menggantikan tenaga kerja Namun hambatan masuk juga rendah, sementara perusahaan besar yang konservatif memiliki hambatan adopsi yang tinggi Eksekusi GTM dan tahap produk tambahan (act 2) adalah faktor kunci keberhasilan Monetisasi Pada awalnya tarif berbasis per menit dominan, tetapi karena biaya model turun drastis, tekanan harga makin besar Ke depan diperkirakan akan muncul model penagihan gabungan: biaya platform + berbasis pemakaian Persaingan Voice agent untuk perusahaan bersaing di antara platform berfokus developer, platform umum berbentuk no-code, dan solusi khusus industri tertentu Persaingan diperkirakan akan semakin sengit Evolusi pasar Pada paruh kedua 2024, pasar voice agent tumbuh sangat cepat Berbagai produk sedang menambahkan fitur suara Penggalangan dana baru dan akuisisi pelanggan nyata berlangsung aktif di berbagai layer stack suara percakapan Khususnya di perusahaan besar, ada kecenderungan untuk tidak langsung mengganti seluruh pekerjaan panggilan manusia dengan AI, melainkan memulai dari jenis panggilan tertentu lalu memperluasnya secara bertahap Panggilan malam hari·kelebihan beban: panggilan yang biasanya berakhir di voicemail bisa ditangani AI untuk mengumpulkan informasi dan memproses transaksi pada tingkat tertentu Panggilan outbound baru: panggilan yang sebelumnya tidak dilakukan karena tidak ekonomis kini menjadi mungkin, sehingga diharapkan memberi tambahan pendapatan atau penghematan biaya Panggilan ‘back office’: otomatisasi tugas yang mengharuskan menelepon perusahaan atau institusi lain dapat meningkatkan efisiensi Evolusi pasar - contoh penggalangan dana Perusahaan model ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI, dan lainnya terus mengumumkan penggalangan dana besar dari seed round hingga seri B Platform umum Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland, dan lainnya menggalang pendanaan seri A hingga C Perusahaan seperti 11x, Decagon, Sierra, Artisan yang fokus pada industri tertentu (sales, customer support, dll.) juga mendapat perhatian Platform developer seperti Vapi dan Retell AI juga bermunculan Platform vertikal Banyak startup mendapat pendanaan di area khusus seperti healthcare, HR, dan respons darurat, termasuk Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad Wayfaster dan HappyRobot juga berhasil menggalang dana di bidang seperti logistik dan wawancara Pasar vertikal penting Tempat yang paling mungkin mengadopsi voice agent lebih dulu adalah industri dengan pengeluaran call center/BPO yang besar Industri utama seperti keuangan, asuransi, B2C, B2B, pemerintah, dan healthcare kemungkinan besar akan memiliki solusi suara khusus masing-masing Diperkirakan para founder akan aktif mencoba di bidang-bidang berikut Financial services (mis: penagihan utang) Insurance (respons pelanggan dan back office) Government Support services (respons pelanggan yang kompleks seperti dukungan TI yang memerlukan pengetahuan khusus) Bahkan di luar kategori call center, telah terlihat willingness to pay untuk AI voice agent yang digunakan untuk coaching/training pada profesi bergaji tinggi Voice agent yang realistis dapat berperan sebagai ‘simulator’ dan sangat meningkatkan kemampuan kerja Dengan ini, biaya tenaga kerja seperti sales coach atau software lama yang tidak efisien dapat digantikan Vertikal yang patut diperhatikan - tren perusahaan YC Jumlah perusahaan voice agent yang mengikuti YC meningkat dengan cepat B2B (~69%) dan healthcare (~18%) mendominasi, dan di subbidang B2B terdapat banyak startup terkait fintech dan customer support Bidang healthcare terbagi menjadi front office (untuk pasien) dan back office (untuk apotek, perusahaan asuransi, dll.) Secara keseluruhan, startup sedang mencoba menyelesaikan berbagai masalah industri dengan voice agent Yang kami cari Industri di mana telepon adalah kanal inti, atau telepon paling optimal dari sisi regulasi maupun efisiensi Telepon menjadi sarana utama untuk demo pelanggan (mis: logistik) Panggilan lebih efektif secara regulasi (mis: penagihan utang) Area di mana tingkat keberhasilan lebih tinggi dibanding pendekatan lain (mis: healthcare) Struktur panggilan harus jelas dan dapat diukur Data point yang perlu dikumpulkan atau informasi yang harus disampaikan jelas Hasilnya mudah diukur, sehingga perusahaan dapat mempertimbangkan adopsi AI voice agent tanpa beban besar Harus mampu mengurangi biaya tenaga kerja lebih dari 50% sambil menghasilkan performa setara manusia Adopsi lebih mudah dalam skenario ketika tenaga kerja yang digantikan jelas atau bisa direalokasi Karena secara internal mungkin ada skeptisisme terhadap AI, ROI harus sangat besar Panggilan merupakan ‘masalah yang menyangkut kelangsungan’ bagi pelanggan, tetapi pihak yang melakukan atau menerima panggilan masih bisa mentoleransi kegagalan Sering dimulai dari panggilan malam hari·overflow atau panggilan ‘subprime’ AI lebih mudah masuk di area dengan standar performa yang rendah Efek efisiensi panggilan besar di area yang langsung menghasilkan pendapatan (mis: reservasi baru, pembayaran) atau area dengan biaya tinggi (mis: drive-thru) Untuk masuk ke SMB/mid-market, harus memungkinkan integrasi VoIP sederhana atau self-setup Untuk enterprise, semakin kompleks integrasi awalnya, semakin besar hambatan masuknya, namun jika dibangun dengan baik akan menjadi keunggulan kompetitif Atau bisa dimulai dengan mudah melalui kompleksitas integrasi yang rendah, lalu diperluas secara bertahap Secara umum, pasar sangat tertarik pada solusi yang sekaligus mencapai tingkat keberhasilan tinggi dan penghematan biaya besar Studi kasus - wawancara suara AI Pada awalnya, penerapan suara AI pada wawancara kerja yang kompleks dan sensitif terlihat cukup tidak terduga Namun di industri staffing, ini sangat efektif untuk menangani wawancara massal dan berulang Wawancara bisa dilakukan lebih cepat dan lebih konsisten tanpa merusak pengalaman kandidat AI dapat langsung melakukan wawancara saat dibutuhkan, atau menilai kandidat tanpa hambatan bahasa/aksen Khususnya untuk peran teknis, ada umpan balik bahwa AI dapat memberi penilaian lebih akurat daripada staf HR umum Perusahaan merasakan manfaat berupa naiknya tingkat kelulusan wawancara dan proses pencocokan kandidat yang lebih cepat

(gamma.app)

15 poin oleh xguru 2025-02-06 | 1 komentar | Bagikan ke WhatsApp

Thesis kami - "Mengapa suara?"

Suara berperan sebagai terobosan kuat dari sisi kegunaan AI
Dari sisi perusahaan, AI memungkinkan penggantian tenaga kerja dan respons pelanggan 24 jam
Dari sisi konsumen juga ada pandangan bahwa suara akan menjadi antarmuka AI utama
Saat ini infrastruktur suara AI sudah cukup mapan, dan suara mulai dimanfaatkan secara serius di berbagai aplikasi
Seiring peningkatan performa model, ada pandangan bahwa suara itu sendiri bukan lagi produk, melainkan akan berfungsi sebagai ‘wedge’ untuk masuk ke pasar

Hal-hal baru yang telah diumumkan sejauh ini

Mei 2024: OpenAI merilis GPT-4o voice dan memperkenalkan kemampuan respons suara real-time, Cartesia mengumumkan Sonic
Juni 2024: Character memperkenalkan fitur panggilan suara dalam versi beta, Apple mengumumkan integrasi ChatGPT ke Siri
Juli 2024: OpenAI melanjutkan rollout Advanced Voice, Speechmatics merilis model Flow
Agustus 2024: Amazon mengintegrasikan Claude ke Alexa, Meta menghadirkan pendamping AI dengan suara selebritas
September 2024: NotebookLM mendapat perhatian lewat Audio Overview, PlayHT merilis model 2.0
Oktober 2024: OpenAI merilis real-time API, Kyutai mengumumkan model Moshi
November 2024: ElevenLabs meluncurkan Conversational AI, NVIDIA mengumumkan model Fugatto, Gemini Live merilis aplikasi real-time
Desember 2024: ChatGPT Advanced Voice Mode ditambahkan pencarian internet, peluncuran 1-800-CHATGPT juga menarik perhatian

Apa yang berubah?

Infrastruktur model menjadi lebih sederhana, dan muncul voice agent dengan latensi rendah serta performa tinggi
Model percakapan generasi baru dalam 6 bulan terakhir menjadi pendorong utama peningkatan performa ini
Biaya juga terus turun; pada Desember 2024 OpenAI memangkas harga GPT-4o real-time API secara signifikan
GPT-4o mini juga tersedia dalam versi real-time

Situasi saat ini

Kualitas model
- Kualitas percakapan (latensi, kemampuan interupsi, ekspresi emosi, dll.) pada umumnya sudah banyak teratasi
- Berkat perkembangan model suara real-time OpenAI dan model lain, ada kasus yang menunjukkan performa lebih baik daripada call center/BPO
GTM(go-to-market)
- Produk agent dapat menyebar cepat karena langsung menggantikan tenaga kerja
- Namun hambatan masuk juga rendah, sementara perusahaan besar yang konservatif memiliki hambatan adopsi yang tinggi
- Eksekusi GTM dan tahap produk tambahan (act 2) adalah faktor kunci keberhasilan
Monetisasi
- Pada awalnya tarif berbasis per menit dominan, tetapi karena biaya model turun drastis, tekanan harga makin besar
- Ke depan diperkirakan akan muncul model penagihan gabungan: biaya platform + berbasis pemakaian
Persaingan
- Voice agent untuk perusahaan bersaing di antara platform berfokus developer, platform umum berbentuk no-code, dan solusi khusus industri tertentu
- Persaingan diperkirakan akan semakin sengit

Evolusi pasar

Pada paruh kedua 2024, pasar voice agent tumbuh sangat cepat
Berbagai produk sedang menambahkan fitur suara
Penggalangan dana baru dan akuisisi pelanggan nyata berlangsung aktif di berbagai layer stack suara percakapan
Khususnya di perusahaan besar, ada kecenderungan untuk tidak langsung mengganti seluruh pekerjaan panggilan manusia dengan AI, melainkan memulai dari jenis panggilan tertentu lalu memperluasnya secara bertahap
- Panggilan malam hari·kelebihan beban: panggilan yang biasanya berakhir di voicemail bisa ditangani AI untuk mengumpulkan informasi dan memproses transaksi pada tingkat tertentu
- Panggilan outbound baru: panggilan yang sebelumnya tidak dilakukan karena tidak ekonomis kini menjadi mungkin, sehingga diharapkan memberi tambahan pendapatan atau penghematan biaya
  - Panggilan ‘back office’: otomatisasi tugas yang mengharuskan menelepon perusahaan atau institusi lain dapat meningkatkan efisiensi

Evolusi pasar - contoh penggalangan dana

Perusahaan model
- ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI, dan lainnya terus mengumumkan penggalangan dana besar dari seed round hingga seri B
Platform umum
- Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland, dan lainnya menggalang pendanaan seri A hingga C
- Perusahaan seperti 11x, Decagon, Sierra, Artisan yang fokus pada industri tertentu (sales, customer support, dll.) juga mendapat perhatian
- Platform developer seperti Vapi dan Retell AI juga bermunculan
Platform vertikal
- Banyak startup mendapat pendanaan di area khusus seperti healthcare, HR, dan respons darurat, termasuk Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad
- Wayfaster dan HappyRobot juga berhasil menggalang dana di bidang seperti logistik dan wawancara

Pasar vertikal penting

Tempat yang paling mungkin mengadopsi voice agent lebih dulu adalah industri dengan pengeluaran call center/BPO yang besar
Industri utama seperti keuangan, asuransi, B2C, B2B, pemerintah, dan healthcare kemungkinan besar akan memiliki solusi suara khusus masing-masing
Diperkirakan para founder akan aktif mencoba di bidang-bidang berikut
- Financial services (mis: penagihan utang)
- Insurance (respons pelanggan dan back office)
- Government
- Support services (respons pelanggan yang kompleks seperti dukungan TI yang memerlukan pengetahuan khusus)
Bahkan di luar kategori call center, telah terlihat willingness to pay untuk AI voice agent yang digunakan untuk coaching/training pada profesi bergaji tinggi
- Voice agent yang realistis dapat berperan sebagai ‘simulator’ dan sangat meningkatkan kemampuan kerja
- Dengan ini, biaya tenaga kerja seperti sales coach atau software lama yang tidak efisien dapat digantikan

Vertikal yang patut diperhatikan - tren perusahaan YC

Jumlah perusahaan voice agent yang mengikuti YC meningkat dengan cepat
B2B (~69%) dan healthcare (~18%) mendominasi, dan di subbidang B2B terdapat banyak startup terkait fintech dan customer support
Bidang healthcare terbagi menjadi front office (untuk pasien) dan back office (untuk apotek, perusahaan asuransi, dll.)
Secara keseluruhan, startup sedang mencoba menyelesaikan berbagai masalah industri dengan voice agent

Yang kami cari

Industri di mana telepon adalah kanal inti, atau telepon paling optimal dari sisi regulasi maupun efisiensi
- Telepon menjadi sarana utama untuk demo pelanggan (mis: logistik)
- Panggilan lebih efektif secara regulasi (mis: penagihan utang)
- Area di mana tingkat keberhasilan lebih tinggi dibanding pendekatan lain (mis: healthcare)
Struktur panggilan harus jelas dan dapat diukur
- Data point yang perlu dikumpulkan atau informasi yang harus disampaikan jelas
- Hasilnya mudah diukur, sehingga perusahaan dapat mempertimbangkan adopsi AI voice agent tanpa beban besar
Harus mampu mengurangi biaya tenaga kerja lebih dari 50% sambil menghasilkan performa setara manusia
- Adopsi lebih mudah dalam skenario ketika tenaga kerja yang digantikan jelas atau bisa direalokasi
- Karena secara internal mungkin ada skeptisisme terhadap AI, ROI harus sangat besar
Panggilan merupakan ‘masalah yang menyangkut kelangsungan’ bagi pelanggan, tetapi pihak yang melakukan atau menerima panggilan masih bisa mentoleransi kegagalan
- Sering dimulai dari panggilan malam hari·overflow atau panggilan ‘subprime’
- AI lebih mudah masuk di area dengan standar performa yang rendah
Efek efisiensi panggilan besar di area yang langsung menghasilkan pendapatan (mis: reservasi baru, pembayaran) atau area dengan biaya tinggi (mis: drive-thru)
Untuk masuk ke SMB/mid-market, harus memungkinkan integrasi VoIP sederhana atau self-setup
Untuk enterprise, semakin kompleks integrasi awalnya, semakin besar hambatan masuknya, namun jika dibangun dengan baik akan menjadi keunggulan kompetitif
- Atau bisa dimulai dengan mudah melalui kompleksitas integrasi yang rendah, lalu diperluas secara bertahap
Secara umum, pasar sangat tertarik pada solusi yang sekaligus mencapai tingkat keberhasilan tinggi dan penghematan biaya besar

Studi kasus - wawancara suara AI

Pada awalnya, penerapan suara AI pada wawancara kerja yang kompleks dan sensitif terlihat cukup tidak terduga
Namun di industri staffing, ini sangat efektif untuk menangani wawancara massal dan berulang
Wawancara bisa dilakukan lebih cepat dan lebih konsisten tanpa merusak pengalaman kandidat
AI dapat langsung melakukan wawancara saat dibutuhkan, atau menilai kandidat tanpa hambatan bahasa/aksen
Khususnya untuk peran teknis, ada umpan balik bahwa AI dapat memberi penilaian lebih akurat daripada staf HR umum
Perusahaan merasakan manfaat berupa naiknya tingkat kelulusan wawancara dan proses pencocokan kandidat yang lebih cepat

1 komentar

xguru 2025-02-06

Semua hal tentang agen suara AI yang dirangkum oleh a16z

a16z: Kondisi Terkini AI Voice Agent - 2025

Thesis kami - "Mengapa suara?"

Hal-hal baru yang telah diumumkan sejauh ini

Apa yang berubah?

Situasi saat ini

Kualitas model

GTM(go-to-market)

Monetisasi

Persaingan

Evolusi pasar

Evolusi pasar - contoh penggalangan dana

Perusahaan model

Platform umum

Platform vertikal

Pasar vertikal penting

Vertikal yang patut diperhatikan - tren perusahaan YC

Yang kami cari

Studi kasus - wawancara suara AI

Bacaan terkait

1 komentar