15 poin oleh xguru 2025-02-06 | 1 komentar | Bagikan ke WhatsApp

Thesis kami - "Mengapa suara?"

  • Suara berperan sebagai terobosan kuat dari sisi kegunaan AI
  • Dari sisi perusahaan, AI memungkinkan penggantian tenaga kerja dan respons pelanggan 24 jam
  • Dari sisi konsumen juga ada pandangan bahwa suara akan menjadi antarmuka AI utama
  • Saat ini infrastruktur suara AI sudah cukup mapan, dan suara mulai dimanfaatkan secara serius di berbagai aplikasi
  • Seiring peningkatan performa model, ada pandangan bahwa suara itu sendiri bukan lagi produk, melainkan akan berfungsi sebagai ‘wedge’ untuk masuk ke pasar

Hal-hal baru yang telah diumumkan sejauh ini

  • Mei 2024: OpenAI merilis GPT-4o voice dan memperkenalkan kemampuan respons suara real-time, Cartesia mengumumkan Sonic
  • Juni 2024: Character memperkenalkan fitur panggilan suara dalam versi beta, Apple mengumumkan integrasi ChatGPT ke Siri
  • Juli 2024: OpenAI melanjutkan rollout Advanced Voice, Speechmatics merilis model Flow
  • Agustus 2024: Amazon mengintegrasikan Claude ke Alexa, Meta menghadirkan pendamping AI dengan suara selebritas
  • September 2024: NotebookLM mendapat perhatian lewat Audio Overview, PlayHT merilis model 2.0
  • Oktober 2024: OpenAI merilis real-time API, Kyutai mengumumkan model Moshi
  • November 2024: ElevenLabs meluncurkan Conversational AI, NVIDIA mengumumkan model Fugatto, Gemini Live merilis aplikasi real-time
  • Desember 2024: ChatGPT Advanced Voice Mode ditambahkan pencarian internet, peluncuran 1-800-CHATGPT juga menarik perhatian

Apa yang berubah?

  • Infrastruktur model menjadi lebih sederhana, dan muncul voice agent dengan latensi rendah serta performa tinggi
  • Model percakapan generasi baru dalam 6 bulan terakhir menjadi pendorong utama peningkatan performa ini
  • Biaya juga terus turun; pada Desember 2024 OpenAI memangkas harga GPT-4o real-time API secara signifikan
  • GPT-4o mini juga tersedia dalam versi real-time

Situasi saat ini

  • Kualitas model

    • Kualitas percakapan (latensi, kemampuan interupsi, ekspresi emosi, dll.) pada umumnya sudah banyak teratasi
    • Berkat perkembangan model suara real-time OpenAI dan model lain, ada kasus yang menunjukkan performa lebih baik daripada call center/BPO
  • GTM(go-to-market)

    • Produk agent dapat menyebar cepat karena langsung menggantikan tenaga kerja
    • Namun hambatan masuk juga rendah, sementara perusahaan besar yang konservatif memiliki hambatan adopsi yang tinggi
    • Eksekusi GTM dan tahap produk tambahan (act 2) adalah faktor kunci keberhasilan
  • Monetisasi

    • Pada awalnya tarif berbasis per menit dominan, tetapi karena biaya model turun drastis, tekanan harga makin besar
    • Ke depan diperkirakan akan muncul model penagihan gabungan: biaya platform + berbasis pemakaian
  • Persaingan

    • Voice agent untuk perusahaan bersaing di antara platform berfokus developer, platform umum berbentuk no-code, dan solusi khusus industri tertentu
    • Persaingan diperkirakan akan semakin sengit

Evolusi pasar

  • Pada paruh kedua 2024, pasar voice agent tumbuh sangat cepat
  • Berbagai produk sedang menambahkan fitur suara
  • Penggalangan dana baru dan akuisisi pelanggan nyata berlangsung aktif di berbagai layer stack suara percakapan
  • Khususnya di perusahaan besar, ada kecenderungan untuk tidak langsung mengganti seluruh pekerjaan panggilan manusia dengan AI, melainkan memulai dari jenis panggilan tertentu lalu memperluasnya secara bertahap
    • Panggilan malam hari·kelebihan beban: panggilan yang biasanya berakhir di voicemail bisa ditangani AI untuk mengumpulkan informasi dan memproses transaksi pada tingkat tertentu
    • Panggilan outbound baru: panggilan yang sebelumnya tidak dilakukan karena tidak ekonomis kini menjadi mungkin, sehingga diharapkan memberi tambahan pendapatan atau penghematan biaya
      • Panggilan ‘back office’: otomatisasi tugas yang mengharuskan menelepon perusahaan atau institusi lain dapat meningkatkan efisiensi

Evolusi pasar - contoh penggalangan dana

  • Perusahaan model

    • ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI, dan lainnya terus mengumumkan penggalangan dana besar dari seed round hingga seri B
  • Platform umum

    • Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland, dan lainnya menggalang pendanaan seri A hingga C
    • Perusahaan seperti 11x, Decagon, Sierra, Artisan yang fokus pada industri tertentu (sales, customer support, dll.) juga mendapat perhatian
    • Platform developer seperti Vapi dan Retell AI juga bermunculan
  • Platform vertikal

    • Banyak startup mendapat pendanaan di area khusus seperti healthcare, HR, dan respons darurat, termasuk Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad
    • Wayfaster dan HappyRobot juga berhasil menggalang dana di bidang seperti logistik dan wawancara

Pasar vertikal penting

  • Tempat yang paling mungkin mengadopsi voice agent lebih dulu adalah industri dengan pengeluaran call center/BPO yang besar
  • Industri utama seperti keuangan, asuransi, B2C, B2B, pemerintah, dan healthcare kemungkinan besar akan memiliki solusi suara khusus masing-masing
  • Diperkirakan para founder akan aktif mencoba di bidang-bidang berikut
    • Financial services (mis: penagihan utang)
    • Insurance (respons pelanggan dan back office)
    • Government
    • Support services (respons pelanggan yang kompleks seperti dukungan TI yang memerlukan pengetahuan khusus)
  • Bahkan di luar kategori call center, telah terlihat willingness to pay untuk AI voice agent yang digunakan untuk coaching/training pada profesi bergaji tinggi
    • Voice agent yang realistis dapat berperan sebagai ‘simulator’ dan sangat meningkatkan kemampuan kerja
    • Dengan ini, biaya tenaga kerja seperti sales coach atau software lama yang tidak efisien dapat digantikan

Vertikal yang patut diperhatikan - tren perusahaan YC

  • Jumlah perusahaan voice agent yang mengikuti YC meningkat dengan cepat
  • B2B (~69%) dan healthcare (~18%) mendominasi, dan di subbidang B2B terdapat banyak startup terkait fintech dan customer support
  • Bidang healthcare terbagi menjadi front office (untuk pasien) dan back office (untuk apotek, perusahaan asuransi, dll.)
  • Secara keseluruhan, startup sedang mencoba menyelesaikan berbagai masalah industri dengan voice agent

Yang kami cari

  • Industri di mana telepon adalah kanal inti, atau telepon paling optimal dari sisi regulasi maupun efisiensi
    • Telepon menjadi sarana utama untuk demo pelanggan (mis: logistik)
    • Panggilan lebih efektif secara regulasi (mis: penagihan utang)
    • Area di mana tingkat keberhasilan lebih tinggi dibanding pendekatan lain (mis: healthcare)
  • Struktur panggilan harus jelas dan dapat diukur
    • Data point yang perlu dikumpulkan atau informasi yang harus disampaikan jelas
    • Hasilnya mudah diukur, sehingga perusahaan dapat mempertimbangkan adopsi AI voice agent tanpa beban besar
  • Harus mampu mengurangi biaya tenaga kerja lebih dari 50% sambil menghasilkan performa setara manusia
    • Adopsi lebih mudah dalam skenario ketika tenaga kerja yang digantikan jelas atau bisa direalokasi
    • Karena secara internal mungkin ada skeptisisme terhadap AI, ROI harus sangat besar
  • Panggilan merupakan ‘masalah yang menyangkut kelangsungan’ bagi pelanggan, tetapi pihak yang melakukan atau menerima panggilan masih bisa mentoleransi kegagalan
    • Sering dimulai dari panggilan malam hari·overflow atau panggilan ‘subprime’
    • AI lebih mudah masuk di area dengan standar performa yang rendah
  • Efek efisiensi panggilan besar di area yang langsung menghasilkan pendapatan (mis: reservasi baru, pembayaran) atau area dengan biaya tinggi (mis: drive-thru)
  • Untuk masuk ke SMB/mid-market, harus memungkinkan integrasi VoIP sederhana atau self-setup
  • Untuk enterprise, semakin kompleks integrasi awalnya, semakin besar hambatan masuknya, namun jika dibangun dengan baik akan menjadi keunggulan kompetitif
    • Atau bisa dimulai dengan mudah melalui kompleksitas integrasi yang rendah, lalu diperluas secara bertahap
  • Secara umum, pasar sangat tertarik pada solusi yang sekaligus mencapai tingkat keberhasilan tinggi dan penghematan biaya besar

Studi kasus - wawancara suara AI

  • Pada awalnya, penerapan suara AI pada wawancara kerja yang kompleks dan sensitif terlihat cukup tidak terduga
  • Namun di industri staffing, ini sangat efektif untuk menangani wawancara massal dan berulang
  • Wawancara bisa dilakukan lebih cepat dan lebih konsisten tanpa merusak pengalaman kandidat
  • AI dapat langsung melakukan wawancara saat dibutuhkan, atau menilai kandidat tanpa hambatan bahasa/aksen
  • Khususnya untuk peran teknis, ada umpan balik bahwa AI dapat memberi penilaian lebih akurat daripada staf HR umum
  • Perusahaan merasakan manfaat berupa naiknya tingkat kelulusan wawancara dan proses pencocokan kandidat yang lebih cepat