Show HN: Agen video AI real-time dengan latensi di bawah 1 detik

(news.ycombinator.com)

2 poin oleh GN⁺ 2024-10-02 | 1 komentar | Bagikan ke WhatsApp

Tavus berfokus menurunkan latensi respons hingga di bawah 1 detik untuk membuat antarmuka video AI yang berbicara secara alami dengan manusia
Dalam percakapan cepat, jeda antar-ucapan hanya sekitar 250 ms, sehingga agen video juga harus memiliki latensi rendah sekaligus kesadaran konteks percakapan
Phoenix-1 awal membutuhkan satu H100 untuk setiap percakapan, sehingga memiliki keterbatasan biaya dan skalabilitas; Phoenix-2 beralih ke Gaussian Splatting dengan target menghasilkan lebih dari 70 fps di hardware berspesifikasi rendah
Di seluruh pipeline, Tavus memangkas vision, ASR, LLM, TTS, dan pembuatan video; pada LLM, waktu ke token pertama terasa sebagai bottleneck yang lebih besar daripada token per detik
Jika akhir ucapan dinilai hanya dari durasi hening, akan muncul interupsi dan keterlambatan respons; dengan deteksi akhir ucapan dan prediksi input, latensi 3–5 detik diturunkan menjadi di bawah 1 detik, bahkan hingga 600 ms pada kondisi cepat

Target Tavus: kecepatan respons yang terasa seperti manusia

Tavus adalah perusahaan riset AI sekaligus platform developer API video yang sejak 2020 membuat model video AI untuk digital twin atau avatar
Sebagai demo, mereka menyediakan hassaanraza.com, tempat Anda dapat berbicara dengan digital twin Hassaan, serta tavus.io, yang memiliki “demo twin” Carter
Video interaktif dapat menjadi cara yang lebih alami untuk berinteraksi dengan komputer, tetapi untuk itu dibutuhkan latensi rendah dan kemampuan persepsi yang mencerminkan konteks percakapan
Target latensinya adalah di bawah 1 detik
- Percakapan cepat antar-teman memiliki jeda antar-ucapan sekitar 250 ms
- Untuk topik yang lebih kompleks atau percakapan dengan orang asing, ada tambahan waktu untuk “berpikir”
- Tavus menilai percakapan terasa cukup realistis jika berada di bawah 1000 ms

Implementasi yang menyeimbangkan latensi, skalabilitas, dan biaya

Arsitektur harus menyeimbangkan latensi, skalabilitas, dan biaya secara bersamaan, sehingga Tavus mendekatinya kembali dari awal sebagai sistem latensi rendah
Model video dan biaya hardware
- Pada tahap pengembangan awal, agar model Phoenix-1 berjalan lebih cepat dari 30 fps, semua komponen dan bobot model harus dimuat ke memori GPU, dan setiap percakapan membutuhkan H100 terpisah
- Pendekatan ini sulit diskalakan dan berbiaya tinggi
- Phoenix-2 adalah model baru yang mencakup berbagai peningkatan, termasuk kecepatan inferensi
  - Beralih dari backbone berbasis NeRF ke Gaussian Splatting
  - Menetapkan persyaratan untuk menghasilkan frame lebih dari 70 fps, lebih cepat dari real-time, pada hardware berspesifikasi rendah
  - Berfokus pada optimasi penggunaan memori GPU dan core agar dapat berjalan di hardware dengan spesifikasi lebih rendah
  - Penggunaan streaming dan paralelisasi alih-alih batch processing juga dimanfaatkan untuk menghemat waktu dan biaya
LLM dan deteksi akhir ucapan
- Untuk menurunkan latensi antar-ucapan menjadi di bawah 1 detik, Tavus mengoptimalkan secara kuat tiap bagian: vision, ASR, LLM, TTS, dan pembuatan video
- Bottleneck terbesar adalah LLM
  - Dibandingkan token per detik yang tinggi, waktu ke token pertama (time-to-first token) lebih penting bagi latensi yang benar-benar dirasakan
  - Layanan seperti Groq juga memiliki token per detik yang tinggi, tetapi waktu ke token pertamanya lambat sehingga tidak sesuai kebutuhan, dan sebagian besar penyedia terlalu lambat
- Bottleneck berikutnya adalah bagian yang mendeteksi apakah pengguna sudah berhenti berbicara
  - Jika berhenti dinilai berdasarkan waktu setelah hening, akan muncul latensi tambahan
  - Jika ambangnya terlalu pendek, agen AI akan menimpa ucapan pengguna; jika terlalu panjang, respons menjadi terlambat
  - Dibutuhkan model khusus yang mendeteksi akhir giliran bicara (end-of-turn) secara akurat berdasarkan sinyal percakapan dan bersiap lebih dulu dengan menebak input
- Dengan optimasi ini, latensi yang sebelumnya 3–5 detik diturunkan menjadi di bawah 1 detik, bahkan hingga 600 ms pada kondisi cepat, dan dapat berjalan di hardware dengan spesifikasi lebih rendah

Demo dan kasus penggunaan

Tavus memiliki pelanggan seperti Delphi; Delphi adalah platform replikasi coach profesional dan pakar, dengan pengguna yang berbicara dengan digital twin selama beberapa menit hingga 1 jam, bahkan 4 jam
Pengguna yang setelah melihat demo ingin mencoba API dapat mendaftar gratis di tavus.io

1 komentar

GN⁺ 2024-10-02

Komentar Hacker News

Suka dengan situs webnya dan suara dial-up-nya, topi koboinya juga keren
Pengalaman chat dengan dua avatar kurang bagus, sering terputus-putus dan membingungkan
Pengenalan gambarnya bagus, sempat bisa mengenali benda saat avatar merespons dengan lambat
Terima kasih sudah membagikan kesulitan yang spesifik, ke depannya akan jadi lebih baik
Versi Hassan lebih bagus, bisa mengenali latar belakang dan membicarakan model yang ada di dinding
- Membahas set LEGO
Di kamar mandi kameranya sedang mengarah ke handuk, tapi bilang "Kamar mandinya nyaman ya"
Rasanya seperti berbicara dengan orang sungguhan, tidak bisa diperlakukan seperti kode
- Jadi memikirkan upaya sadar yang dilakukan saat berbicara dengan orang
- Saat mencari di Google, hanya memakai kata kunci seminimal mungkin
- Khawatir teknologi ini akan melatih orang untuk berperilaku serupa
Jika tertarik dengan AI multimodal berlatensi rendah, Tavus mensponsori hackathon di SF pada 19-20 Oktober
- Ada juga track remote
Fitur demo: 9,5/10
- Rasa ngeri: 10/10
Tidak terlalu paham deployment GPU, tapi kelihatannya mahal dan sulit mendapatkan alokasi
- Penasaran bagaimana cara menangani sumber daya GPU cloud dalam skala besar
- Apakah GPU dialokasikan untuk setiap koneksi WebSocket, kalau begitu biayanya pasti besar
Secara teknis sangat mengesankan, avatar Carter terlihat seperti sedang tegang
- Ada yang aneh di mulut/giginya, tapi responsnya cepat
- Pernah melihat latensi yang lebih tinggi di Zoom
- Menurut saya ini masa depan call center, kalau avatarnya makin ekspresif CSAT akan meningkat
Pekerjaan yang luar biasa secara teknis, waktu respons di bawah 1 detik sangat mengesankan
- Menakutkan bahwa kita bisa berbicara dengan orang palsu di FaceTime
- Penasaran bagaimana pandangan mereka soal dampak sosialnya
- Saat ini ada krisis kesepian karena kurangnya koneksi antarmanusia
ChatGPT bermasalah dalam mendeteksi jeda percakapan
- Selalu memotong pembicaraan

Show HN: Agen video AI real-time dengan latensi di bawah 1 detik

Target Tavus: kecepatan respons yang terasa seperti manusia

Implementasi yang menyeimbangkan latensi, skalabilitas, dan biaya

Model video dan biaya hardware

LLM dan deteksi akhir ucapan

Demo dan kasus penggunaan

Bacaan terkait

1 komentar

Komentar Hacker News