- Hassaan dan Quinn, para pendiri bersama Tavus, memperkenalkan perusahaan riset AI dan platform pengembangan API video mereka
- Sejak 2020, mereka telah mengembangkan model video AI untuk 'digital twin' atau 'avatar'
- Mereka membagikan tantangan dalam membangun antarmuka video AI untuk percakapan yang realistis dengan manusia
Tantangan
- Agar video percakapan efektif, dibutuhkan latensi yang sangat rendah dan pemahaman konteks percakapan
- Percakapan cepat antar teman biasanya memiliki jeda sekitar 250ms di antara ujaran, tetapi percakapan tentang topik kompleks atau dengan orang baru membutuhkan waktu 'berpikir' tambahan
- Latensi di bawah 1000ms membuat percakapan terasa realistis
Keputusan arsitektur
- Menyeimbangkan latensi, skalabilitas, dan biaya merupakan tantangan besar
- Mereka harus membangunnya ulang dari nol untuk mengurangi latensi
- Mereka juga harus memangkas biaya komputasi sambil mendukung ribuan percakapan secara bersamaan
Pengembangan awal
- Pada tahap awal pengembangan, setiap percakapan harus dijalankan pada H100 terpisah
- Ini tidak skalabel dan sangat mahal
Pengembangan model Phoenix-2
- Mereka mengembangkan model baru, Phoenix-2, yang mencakup berbagai peningkatan
- Mereka beralih dari backbone berbasis NeRF ke Gaussian Splatting sehingga dapat menghasilkan frame lebih cepat daripada real-time
- Mereka mengoptimalkan penggunaan memori dan inti GPU agar bisa berjalan di perangkat keras berspesifikasi rendah
- Mereka juga menggunakan cara lain untuk menghemat waktu dan biaya, seperti streaming vs batching dan paralelisasi proses
Optimasi
- Setiap komponen (vision, ASR, LLM, TTS, pembuatan video) harus dioptimalkan hingga sangat cepat
- Masalah terbesar adalah LLM
- Meski token per detik (t/s) cepat, tetap menjadi masalah bila waktu ke token pertama (ttft) lambat
- Sebagian besar penyedia terlalu lambat
Deteksi akhir ujaran
- Deteksi akhir ujaran merupakan hal yang sulit
- Solusi dasar menentukan akhir ujaran berdasarkan waktu setelah keheningan, tetapi ini menambah latensi
- Yang penting adalah menentukan timing yang tepat agar agen AI tidak memotong ucapan pengguna
Hasil
- Melalui optimasi ini, mereka menurunkan latensi dari 3–5 detik menjadi di bawah 1 detik (hingga 600ms)
- Mereka mencapai latensi di bawah 1 detik bahkan pada perangkat keras berspesifikasi rendah
- Mereka memiliki beberapa pelanggan seperti Delphi, dan percakapan dengan digital twin berlangsung dari beberapa menit hingga maksimal 4 jam
Ringkasan GN⁺
- Model video AI Tavus bertujuan menghadirkan percakapan alami dengan manusia
- Mereka membangun ulang dan mengoptimalkan arsitektur untuk mengurangi latensi
- Model Phoenix-2 dapat menghasilkan frame lebih cepat daripada real-time bahkan pada perangkat keras berspesifikasi rendah
- Teknologi ini berpotensi menjadi elemen penting dalam antarmuka manusia-komputer
- Proyek lain dengan kemampuan serupa termasuk Google Duplex
1 komentar
Komentar Hacker News