2 poin oleh GN⁺ 2024-09-20 | 1 komentar | Bagikan ke WhatsApp
  • Model interaksi suara end-to-end berkualitas tinggi dengan latensi rendah
  • Dibangun berdasarkan Llama-3.1-8B-Instruct dan bertujuan mencapai kemampuan suara setingkat GPT-4o
  • Latensi rendah 226 ms
  • Menghasilkan respons teks dan suara secara bersamaan

Ringkasan GN⁺

  • LLaMA-Omni adalah model suara-bahasa berbasis Llama-3.1-8B-Instruct yang mendukung interaksi suara dengan latensi rendah dan kualitas tinggi
  • Dapat menghasilkan respons teks dan suara secara bersamaan sehingga berguna untuk berbagai bidang aplikasi
  • Pelatihan selesai dalam waktu kurang dari 3 hari dengan 4 GPU sehingga efisien
  • Dapat berinteraksi dengan mudah melalui demo Gradio, dan inferensi lokal juga dimungkinkan
  • Proyek dengan fungsi serupa mencakup Whisper dari OpenAI dan Speech-to-Text API dari Google

1 komentar

 
GN⁺ 2024-09-20
Komentar Hacker News
  • Pertanyaan tentang "apakah suara yang tidak bisa diekspresikan dengan teks dapat diputar ulang"
  • Keraguan tentang keunggulan atau potensi model ini dibanding model teks murni
    • Harapan bahwa seiring model berkembang, ia dapat menafsirkan atau menghasilkan intonasi, ritme, dan emosi yang hilang di TTS dengan baik
  • Pertanyaan apakah ini bukan sekadar "STT -> LLM -> TTS"
    • Jika suara Chewbacca dimasukkan, muncul pertanyaan apakah model akan mengenalinya sebagai suara tanpa makna, atau malah menafsirkannya sebagai kata-kata acak lewat STT yang buruk
  • Pertanyaan apakah operator model seperti Ollama, LM Studio, dan llama.cpp mendukung ini
  • Suara TTS pada klip demo sangat mirip dengan pengisi suara Valve, Ellen McLain
  • Kecepatannya sangat bagus
    • Baru-baru ini mencoba menyiapkan LMStudio + AnythingLLM untuk obrolan suara lokal, tetapi masih lebih lambat dari yang diinginkan
    • Suara PiperTTS lebih baik
  • Fine-tuning suara tampak sebagai persyaratan penting untuk penggunaan komersial
    • Andai ada kode pelatihan atau fine-tuning
  • Keraguan apakah fine-tuning tambahan tidak dimungkinkan
  • Pertanyaan apakah ada demo yang menunjukkan performanya
  • Keraguan apakah keberadaan grafik riwayat bintang di repositori GitHub membuat kredibilitas terasa lebih rendah