2 poin oleh GN⁺ 2024-10-02 | 1 komentar | Bagikan ke WhatsApp
  • Hassaan dan Quinn, para pendiri bersama Tavus, memperkenalkan perusahaan riset AI dan platform pengembangan API video mereka
  • Sejak 2020, mereka telah mengembangkan model video AI untuk 'digital twin' atau 'avatar'
  • Mereka membagikan tantangan dalam membangun antarmuka video AI untuk percakapan yang realistis dengan manusia

Tantangan

  • Agar video percakapan efektif, dibutuhkan latensi yang sangat rendah dan pemahaman konteks percakapan
  • Percakapan cepat antar teman biasanya memiliki jeda sekitar 250ms di antara ujaran, tetapi percakapan tentang topik kompleks atau dengan orang baru membutuhkan waktu 'berpikir' tambahan
  • Latensi di bawah 1000ms membuat percakapan terasa realistis

Keputusan arsitektur

  • Menyeimbangkan latensi, skalabilitas, dan biaya merupakan tantangan besar
  • Mereka harus membangunnya ulang dari nol untuk mengurangi latensi
  • Mereka juga harus memangkas biaya komputasi sambil mendukung ribuan percakapan secara bersamaan

Pengembangan awal

  • Pada tahap awal pengembangan, setiap percakapan harus dijalankan pada H100 terpisah
  • Ini tidak skalabel dan sangat mahal

Pengembangan model Phoenix-2

  • Mereka mengembangkan model baru, Phoenix-2, yang mencakup berbagai peningkatan
  • Mereka beralih dari backbone berbasis NeRF ke Gaussian Splatting sehingga dapat menghasilkan frame lebih cepat daripada real-time
  • Mereka mengoptimalkan penggunaan memori dan inti GPU agar bisa berjalan di perangkat keras berspesifikasi rendah
  • Mereka juga menggunakan cara lain untuk menghemat waktu dan biaya, seperti streaming vs batching dan paralelisasi proses

Optimasi

  • Setiap komponen (vision, ASR, LLM, TTS, pembuatan video) harus dioptimalkan hingga sangat cepat
  • Masalah terbesar adalah LLM
  • Meski token per detik (t/s) cepat, tetap menjadi masalah bila waktu ke token pertama (ttft) lambat
  • Sebagian besar penyedia terlalu lambat

Deteksi akhir ujaran

  • Deteksi akhir ujaran merupakan hal yang sulit
  • Solusi dasar menentukan akhir ujaran berdasarkan waktu setelah keheningan, tetapi ini menambah latensi
  • Yang penting adalah menentukan timing yang tepat agar agen AI tidak memotong ucapan pengguna

Hasil

  • Melalui optimasi ini, mereka menurunkan latensi dari 3–5 detik menjadi di bawah 1 detik (hingga 600ms)
  • Mereka mencapai latensi di bawah 1 detik bahkan pada perangkat keras berspesifikasi rendah
  • Mereka memiliki beberapa pelanggan seperti Delphi, dan percakapan dengan digital twin berlangsung dari beberapa menit hingga maksimal 4 jam

Ringkasan GN⁺

  • Model video AI Tavus bertujuan menghadirkan percakapan alami dengan manusia
  • Mereka membangun ulang dan mengoptimalkan arsitektur untuk mengurangi latensi
  • Model Phoenix-2 dapat menghasilkan frame lebih cepat daripada real-time bahkan pada perangkat keras berspesifikasi rendah
  • Teknologi ini berpotensi menjadi elemen penting dalam antarmuka manusia-komputer
  • Proyek lain dengan kemampuan serupa termasuk Google Duplex

1 komentar

 
GN⁺ 2024-10-02
Komentar Hacker News
  • Suka dengan situs webnya dan suara dial-up-nya, topi koboinya juga keren
  • Pengalaman chat dengan dua avatar kurang bagus, sering terputus-putus dan membingungkan
  • Pengenalan gambarnya bagus, sempat bisa mengenali benda saat avatar merespons dengan lambat
  • Terima kasih sudah membagikan kesulitan yang spesifik, ke depannya akan jadi lebih baik
  • Versi Hassan lebih bagus, bisa mengenali latar belakang dan membicarakan model yang ada di dinding
    • Membahas set LEGO
  • Di kamar mandi kameranya sedang mengarah ke handuk, tapi bilang "Kamar mandinya nyaman ya"
  • Rasanya seperti berbicara dengan orang sungguhan, tidak bisa diperlakukan seperti kode
    • Jadi memikirkan upaya sadar yang dilakukan saat berbicara dengan orang
    • Saat mencari di Google, hanya memakai kata kunci seminimal mungkin
    • Khawatir teknologi ini akan melatih orang untuk berperilaku serupa
  • Jika tertarik dengan AI multimodal berlatensi rendah, Tavus mensponsori hackathon di SF pada 19-20 Oktober
    • Ada juga track remote
  • Fitur demo: 9,5/10
    • Rasa ngeri: 10/10
  • Tidak terlalu paham deployment GPU, tapi kelihatannya mahal dan sulit mendapatkan alokasi
    • Penasaran bagaimana cara menangani sumber daya GPU cloud dalam skala besar
    • Apakah GPU dialokasikan untuk setiap koneksi WebSocket, kalau begitu biayanya pasti besar
  • Secara teknis sangat mengesankan, avatar Carter terlihat seperti sedang tegang
    • Ada yang aneh di mulut/giginya, tapi responsnya cepat
    • Pernah melihat latensi yang lebih tinggi di Zoom
    • Menurut saya ini masa depan call center, kalau avatarnya makin ekspresif CSAT akan meningkat
  • Pekerjaan yang luar biasa secara teknis, waktu respons di bawah 1 detik sangat mengesankan
    • Menakutkan bahwa kita bisa berbicara dengan orang palsu di FaceTime
    • Penasaran bagaimana pandangan mereka soal dampak sosialnya
    • Saat ini ada krisis kesepian karena kurangnya koneksi antarmanusia
  • ChatGPT bermasalah dalam mendeteksi jeda percakapan
    • Selalu memotong pembicaraan