11 poin oleh xguru 2024-01-31 | 3 komentar | Bagikan ke WhatsApp
  • Menyediakan percakapan yang mulus dengan AI dengan menghubungkan Mistral LLM berdasarkan kemampuan WhisperLive dan WhisperSpeech
    • WhisperLive: mengimplementasikan Whisper milik OpenAI agar berjalan hampir secara real-time untuk mengubah suara menjadi teks
    • WhisperSpeech: sistem TTS yang dibangun dengan membalikkan Whisper
  • Baik LLM maupun Whisper dioptimalkan agar berjalan efisien sebagai engine TensorRT untuk memaksimalkan performa dan kemampuan pemrosesan real-time, dan WhisperSpeech dioptimalkan dengan torch.compile

3 komentar

 
kleinstein 2024-02-02

Kalau bisa diterjemahkan secara real-time, pasti cepat dan bagus ya.

 
xguru 2024-01-31

Komentar Hacker News

  • Dua fitur yang diperlukan agar skenario percakapan bekerja dengan baik:
    • Kemampuan interupsi: LLM harus bisa berhenti sejenak saat pengguna mengatakan "tunggu sebentar".
    • Merespons sinyal tertentu: harus menunggu sinyal tertentu seperti saat pengguna mengatakan "menurutmu bagaimana?" lalu merespons.
    • Selain dua fitur ini, latensi rendah juga penting agar terasa seperti berbicara dengan orang lain.
  • Menyatakan ketertarikan pada proyek seperti WhisperFusion, WhisperLive, dan WhisperSpeech, serta penasaran dengan latensi masing-masing sistem dan angka WER (Word Error Rate) WhisperLive. Disebutkan bahwa informasi penting tentang model-model ini tampaknya masih kurang.
  • Menilai proyek ini bagus, tetapi pada dasarnya lebih merupakan masalah packaging:
    • Mengkritik banyak aplikasi Python karena mengimplementasikan setengah dari setuptools dengan cara yang lambat dan penuh bug.
    • Mempertanyakan mengapa TensorRT mendistribusikan fungsi intinya di direktori "examples".
    • Tentang huggingface_cli, disebutkan bahwa sudah ada cara untuk mengunduh sesuatu berdasarkan nama (seperti indeks PyPi), dan mungkin lebih baik menerapkannya pada model.
  • Mengingat diskusi tentang proyek Vocode, menyebut bahwa ada pembahasan tentang ini 10 bulan lalu dan demonya sempat dicoba serta cukup mengesankan. Bertanya apakah sekarang ada orang yang memakainya dalam pengembangan atau lingkungan produksi.
  • Seorang pengguna membayangkan teknologi ini dipindahkan ke aplikasi khusus yang dapat mengenali isi layar dan teks, lalu memberi bantuan hampir secara real-time.
  • Bertanya bagaimana cara menggunakan Whisper dengan baik untuk transcription streaming, dan memperkenalkan proyek dengan tujuan serupa.
  • Meminta ringkasan tentang bagaimana bagian LLM berbeda atau mirip dengan pengaturan TGWUI+llama.cpp. Secara khusus, mempertanyakan mengapa "latensi ultra-rendah" tidak tercapai di perangkat keras milik pengguna.
  • Pengguna bertanya apakah proyek ini berjalan sepenuhnya secara lokal, atau memerlukan akses API ke sistem jarak jauh OpenAI. Pengguna sedang membangun TTS dan STT menggunakan OpenAI, tetapi tidak ingin terus-menerus mengirim stream audio ke OpenAI hanya untuk menunggu satu perintah.
  • Menganggap ini adalah sesuatu yang seharusnya menjadi Siri dan Alexa, dan memperkirakan teknologi seperti ini akan semakin banyak muncul dalam beberapa tahun ke depan. Disebutkan bahwa jika berjalan secara lokal dan tidak meninggalkan riwayat permanen, masalah mendengarkan di latar belakang juga akan teratasi.
  • Menyebut penggunaan TensorRT, lalu bertanya GPU mana yang didukung dan apakah ini bisa dijalankan di Jetson.