2 poin oleh GN⁺ 2023-11-03 | 1 komentar | Bagikan ke WhatsApp
  • Artikel pengenalan alat AI bernama 'Talk-Llama', yang memungkinkan pengguna berbicara dengan AI di terminal
  • Alat ini menggunakan model Whisper Medium dan LLaMA v2 13B Q8_0, dengan pembaruan performa terbaru per 2 November 2023
  • Talk-Llama bergantung pada pustaka SDL2 untuk menangkap audio dari mikrofon
  • Menyediakan petunjuk instalasi SDL2, serta cara membangun dan menjalankan biner 'talk-llama' untuk Linux dan Mac OS
  • Pengguna dapat menentukan model Whisper dan LLaMA yang ingin digunakan melalui argumen -mw dan -ml
  • Alat ini mendukung pengelolaan sesi, sehingga konteks dari interaksi sebelumnya dapat dipertahankan untuk percakapan lanjutan yang lebih konsisten
  • Pengguna dapat mengaktifkan dukungan sesi dengan opsi baris perintah --session FILE, menyimpan status model setelah setiap interaksi, dan melanjutkan sesi sebelumnya
  • Untuk pengalaman terbaik, disarankan menggunakan alat Text-to-Speech (TTS) yang mengubah respons teks yang dihasilkan menjadi suara
  • Pengguna dapat memakai mesin TTS pilihan mereka dan mengedit skrip 'speak' sesuai kebutuhan
  • Alat ini terbuka terhadap masukan, dan pengguna didorong untuk ikut serta dalam diskusi yang berkelanjutan

1 komentar

 
GN⁺ 2023-11-03
Opini Hacker News
  • Performa Apple Silicon meningkat pesat karena kini dapat menjalankan whisper.cpp secara penuh dan kecepatan generasi llama.cpp juga meningkat signifikan.
  • Llama menunjukkan bahwa ia telah berhasil diintegrasikan dengan model TTS open-source untuk proyek tersebut, menekankan fleksibilitasnya.
  • Alat pendamping coding yang mengurangi overhead manual tanpa berusaha memecahkan masalah yang kompleks dianggap paling berguna.
  • Gagasan alat yang menyematkan ucapan ke dalam vektor konteks diajukan sebagai konsep yang futuristis dan berpotensi berguna.
  • Ada laporan masalah "floating point exception" saat menjalankan talk-llama di arch dan debian, yang menunjukkan kemungkinan adanya masalah kompatibilitas.
  • Ada usulan untuk mengurangi latensi dengan melakukan streaming grup berisi sekitar 6 token sekaligus ke TTS sebelum respons LLM dimulai sepenuhnya.
  • Muncul kekhawatiran bahwa teknologi ini bisa dilarang jika usulan open weight benar-benar terwujud.
  • Kemungkinan solusi text-to-talk yang dapat menerima aliran teks dibahas, yang akan menghilangkan kebutuhan menunggu llama selesai menghasilkan sebelum jawaban bisa diucapkan.
  • Muncul pertanyaan tentang antarmuka chat terbaik untuk llama, dengan keinginan menjalankan salah satu model di terminal untuk tugas coding cepat.
  • Disebutkan bahwa suara Elevenlabs mahal, dan satu percakapan bisa mencapai $20.
  • Ditanyakan apa padanan ollama untuk model whisper/SOTA OS tts, dengan keinginan akan pengaturan sederhana untuk menjalankan whisper secara lokal.
  • Diminta penjelasan dalam bahasa Inggris yang sederhana tentang kemampuan teknologi ini, khususnya apakah ia dapat mempelajari dan mempertahankan konteks percakapan serta membangun memori jangka panjang.