- Model interaksi suara end-to-end berkualitas tinggi dengan latensi rendah
- Dibangun berdasarkan Llama-3.1-8B-Instruct dan bertujuan mencapai kemampuan suara setingkat GPT-4o
- Latensi rendah 226 ms
- Menghasilkan respons teks dan suara secara bersamaan
Ringkasan GN⁺
- LLaMA-Omni adalah model suara-bahasa berbasis Llama-3.1-8B-Instruct yang mendukung interaksi suara dengan latensi rendah dan kualitas tinggi
- Dapat menghasilkan respons teks dan suara secara bersamaan sehingga berguna untuk berbagai bidang aplikasi
- Pelatihan selesai dalam waktu kurang dari 3 hari dengan 4 GPU sehingga efisien
- Dapat berinteraksi dengan mudah melalui demo Gradio, dan inferensi lokal juga dimungkinkan
- Proyek dengan fungsi serupa mencakup Whisper dari OpenAI dan Speech-to-Text API dari Google
1 komentar
Komentar Hacker News