Hertz-dev, model dasar open source pertama untuk audio percakapan

(si.inc)

2 poin oleh GN⁺ 2024-11-04 | 1 komentar | Bagikan ke WhatsApp

hertz-dev dirilis sebagai model dasar khusus audio full-duplex berparameter 8.5B yang mampu menangani situasi dua orang berbicara secara bersamaan, sehingga menjadi titik awal riset agen suara real-time
Arsitekturnya terbagi menjadi hertz-codec dan hertz-ar; suara 16kHz diubah menjadi representasi laten 8Hz, lalu nilai laten audio berikutnya diprediksi secara autoregresif berdasarkan nilai laten sebelumnya
Dengan satu RTX 4090, latensi rata-rata aktual dibenchmark di 120ms, dan latensi rata-rata teoretis disajikan sebesar 80ms, yakni 2 kali lebih rendah daripada tingkat terbaik sebelumnya
hertz-codec menghasilkan 1 nilai laten berdimensi 32 setiap frame 125ms, dan hertz-ar menggunakan transformer decoder-only 40 lapis berparameter 8.4B dengan konteks sekitar 4,5 menit
Karena ini adalah model dasar yang memprediksi distribusi data pelatihan, bukan model produk yang menyempitkan distribusi respons lewat fine-tuning reinforcement learning, peneliti dapat lebih mudah melakukan fine-tuning untuk tugas audio percakapan

Masalah audio percakapan yang dibidik Hertz-dev

Untuk agen interaktif yang alami, modalitas audio yang langsung lebih penting daripada teks
Pendekatan audio generatif secara umum terbagi menjadi metode berbasis difusi dan metode autoregresif; model difusi unggul untuk generasi musik atau sampel pendek, tetapi untuk audio percakapan nyata metode autoregresif lebih cocok
Ada dua tantangan inti yang harus diselesaikan model percakapan
- Generasi audio yang terdengar seperti manusia dan penanganan interupsi yang alami
- Penanganan situasi ketika dua kanal real-time secara bersamaan menghasilkan informasi, seperti pada percakapan manusia biasa

Model yang dirilis dan latensinya

hertz-dev adalah model dasar khusus audio 8.5B parameter, full-duplex
Dirancang sesuai format dua pembicara sehingga dapat mem-parsing dan menghasilkan audio dua pembicara yang saling tumpang tindih
Beroperasi di ruang laten yang menggunakan bit fonetik terkuantisasi, dan hanya melakukan sampling satu nilai laten di setiap timestep
Latensinya disajikan sebagai berikut
- Latensi rata-rata teoretis: 80ms
- Benchmark aktual pada satu RTX 4090: 120ms
- Angka ini 2 kali lebih rendah daripada tingkat terbaik sebelumnya

Arsitektur model: hertz-codec dan hertz-ar

hertz-dev terbagi menjadi dua komponen
- hertz-codec: mengenkode audio menjadi nilai laten lalu memulihkannya kembali menjadi audio
- hertz-ar: memprediksi nilai laten masa depan dengan mengondisikan pada nilai laten sebelumnya
Nilai laten audio diperlakukan sebagai representasi awal yang kaya dan dapat digunakan untuk berbagai tugas downstream
hertz-codec
- hertz-codec adalah audio VAE konvolusional yang menerima suara mono 16kHz dan mengenkodenya menjadi representasi laten 8Hz
- Menggunakan bitrate 1kbps yang diregularisasi KL
- Untuk inferensi streaming, model ini memakai causal convolution, yang secara fungsional menambahkan padding di sisi kiri sekuens
- Codec mengeluarkan parameter Gaussian berupa mean dan variance, lalu melakukan sampling menjadi satu nilai laten 32 dimensi setiap frame 125ms
- Dalam evaluasi subjektif, hertz-codec melampaui Soundstream dan Encodec 6kbps, serta dinilai berada pada tingkat yang mirip dengan DAC 8kbps
- Karena jumlah token per detiknya lebih rendah daripada tokenizer populer, ini menguntungkan untuk language modeling
- Konfigurasi parameter
  - Encoder: 5M parameter
  - Decoder: 95M parameter
- Checkpoint yang dirilis
  - inference_apatosaurus_95000.pt: bobot hertz-codec yang dilatih dengan rekonstruksi campuran, loss adversarial, dan loss regularisasi KL
  - inference_volcano_3.pt: hertz-codec quantizer yang mendistilasi 15 bit penting secara fonetik dari setiap nilai laten
hertz-ar
- hertz-ar adalah transformer decoder-only 40 lapis berparameter 8.4B
- Konteks inputnya 2048 token, setara dengan sekitar 4,5 menit
- Nilai laten output dapat diteruskan ke hertz-codec
- 32 lapis pertama menerima riwayat laten sebagai input dan memprediksi nilai proyeksi kuantisasi 15 bit dari token laten audio berikutnya
- Bagian 32 lapis ini disebut hertz-lm, dan dapat dilatih secara independen atau diinisialisasi dari bobot language model
- 8 lapis terakhir menggunakan riwayat laten dan nilai laten kuantisasi 15 bit untuk memprediksi token laten audio masa depan
- Audio duplex ditangani sebagai tugas pascapelatihan
  - Dua projection head disambungkan lalu dipisahkan kembali
  - Diproses melalui dua pipeline projection kuantisasi yang dikondisikan pada residual masing-masing
- Checkpoint yang dirilis
  - inference_caraway_112000.pt: bobot hertz-lm yang diinisialisasi dari language model yang dilatih dengan 2T token
  - inference_syrup_110000.pt: bobot hertz-lm yang sepenuhnya dilatih pada nilai laten audio setelah inisialisasi acak
  - inference_whip_72000.pt: bobot hertz-ar untuk 8 lapis terakhir
  - inference_care_50000.pt, inference_scion_54000.pt: checkpoint duplex untuk hertz-ar

Pembuatan sampel dan pilihan pelatihan

Untuk menunjukkan kemampuan pemodelan audionya, disediakan sampel generasi kanal tunggal, generasi dua kanal, dan sampel percakapan langsung antara manusia dan model
Sampel interaktif mencakup prompt 9 detik
Pilihan pelatihan utamanya adalah sebagai berikut
- hertz-codec menggunakan Causal ConvNets agar decoding paralel dan kontrol yang lebih halus atas generasi laten dapat dilakukan
- Nilai laten kuantisasi 15 bit dilatih sejak awal agar memuat informasi fonetik, sehingga mendorong model menghasilkan ujaran yang benar secara sintaksis
- Kuantisasi dilakukan dengan memasukkan projection MLP ke dalam layer Finite Scalar Quantization
- Pada hertz-lm, dua strategi inisialisasi diuji melalui studi ablasi, dan disajikan bahwa model tetap mempelajari linguistik secara efektif terlepas dari ada atau tidaknya inisialisasi model teks

Metode inferensi real-time

Saat inferensi langsung, model melakukan 8 forward pass per detik dan terus melanjutkan generasi autoregresif
Input terdiri dari dua kanal terpisah, tetapi dalam percakapan hanya satu kanal yang dikembalikan
Pada setiap langkah, audio manusia ditokenisasi menjadi nilai laten, lalu digabungkan dengan nilai laten terakhir yang dihasilkan model dan dimasukkan ke hertz-ar
Latensi diukur sebagai waktu rata-rata antara ujaran pengguna dan respons model
Secara komputasional, latensi rata-rata adalah 62,5ms, yang mencakup waktu rata-rata antara ujaran acak dan akhir satu token, waktu forward pass, serta latensi internet bolak-balik
Saat dijalankan di RTX 4090 lokal, latensi rata-rata aktual biasanya 120ms
Latensi rendah adalah syarat untuk membuat model yang berinteraksi seperti manusia, tanpa terasa seperti panggilan telepon yang tertunda dan terputus-putus

Sifat rilis dan posisi pemanfaatannya

hertz-dev diperkenalkan sebagai model dasar terbuka pertama untuk audio percakapan
Dalam konteks ini, model dasar berarti bukan model yang sangat mempersempit distribusi generasi lewat fine-tuning reinforcement learning, melainkan model yang secara akurat memprediksi distribusi data pelatihan
Karena sifat ini, model tersebut cocok digunakan sebagai titik awal fine-tuning untuk berbagai tugas downstream
Sumber daya terkait

1 komentar

GN⁺ 2024-11-04

Komentar Hacker News

Ini benar-benar keren. Sebagai catatan, mesin sintesis suara open source yang sudah ada sejauh ini cukup kalah jauh dibanding yang ditunjukkan di sini, jadi saat ini memang voice-to-voice, tetapi kalau nanti diperluas menjadi bentuk multimodal yang juga bisa menerima teks, sepertinya akan sangat diminati
Praktis ini berarti menjadi model voice-to-voice yang sangat bagus sekaligus model TTS yang sangat bagus. Mungkin saja seseorang bisa mengakali dengan melakukan fine-tuning agar keluaran seperti Piper diputar dengan prosodi dan intonasi yang lebih alami, tetapi dibanding menyambungkan pipeline teks LLM → Piper → Hertz-dev, kemampuan menerima teks secara native tampaknya akan jauh lebih berguna
- Kalau timnya hanya 4 orang, menurut saya lebih baik fokus pada satu hal daripada menyebar ke banyak arah
- Betul, tepat sekali. Piper sendiri juga sudah cukup bagus, jadi akan menarik kalau dipadukan dengan model ini
  Hanya saja, belum tentu ini harus dikerjakan langsung oleh tim ini sendiri
Meski Hertz disebut yang pertama, Moshi yang rilis awal tahun ini juga merupakan model suara dua arah yang bekerja dengan cara serupa dan bisa berjalan di MacBook: https://github.com/kyutai-labs/moshi
- Moshi tidak merilis model dasar, hanya merilis dua model yang di-fine-tune untuk percakapan. Selain codec, kode pelatihan juga tidak dibuka
  Hertz juga tampaknya hanya memperlihatkan 3 notebook inferensi dan kode model yang penuh dengan no_grad, tanpa kode pelatihan. Juga tidak ada paper, jadi sulit memahami bagaimana model ini dilatih dan seperti apa arsitekturnya; kalau saya tidak melewatkan sesuatu, agak sulit menyebutnya ramah untuk riset
- LLaMA-Omni https://github.com/ictnlp/LLaMA-Omni adalah model bahasa-suara berbasis Llama-3.1-8B-Instruct yang menghasilkan teks dan suara secara bersamaan
  moshi https://github.com/kyutai-labs/moshi adalah model berbasis speech-text yang menggunakan codec audio neural streaming terbaru, Mimi, dan Mini-Omni https://github.com/gpt-omni/mini-omni adalah LLM multimodal berbasis Qwen2 yang menyediakan input/output suara. Ichigo https://github.com/homebrewltd/ichigo adalah proyek riset terbuka yang memperluas LLM berbasis teks dengan kemampuan mendengar native menggunakan teknik early fusion
- Moshi adalah model yang bagus untuk membuat aplikasi chat, tetapi yang ini tampaknya dirancang lebih mendekati model dasar yang sesungguhnya, dengan keanehan khas foundational modeling, naturalness, dan keramahan untuk riset
Fokus Tesla pada autonomous driving berbasis vision murni, sambil untuk sementara menyingkirkan lidar dan sensor lain, tampak seperti strategi untuk membuat teknologinya lebih mudah diakses dan lebih scalable
Dengan berfokus pada model vision-only, adopsi bisa dipercepat dan pengumpulan data skala besar untuk perbaikan iteratif juga bisa lebih cepat. Jika sistem berbasis vision cukup matang, Tesla mungkin saja nantinya mengintegrasikan kembali data sensor seperti lidar atau radar untuk membuat lini produk self-driving yang lebih kokoh dan matang
Saya juga terpikir ide serupa untuk sistem interaksi suara. Saat ini kebanyakan sistem mengubah suara menjadi teks, membuat respons teks, lalu mengubahnya kembali menjadi suara. Tetapi kalau bisa dilatih untuk merespons langsung dalam bentuk suara tanpa lewat teks, mungkin responsnya bisa lebih alami dan spontan. Ucapan alami punya struktur kalimat dan ritme yang khas, juga perbedaan dialek dan nada, jadi sistem yang dilatih murni pada suara tampaknya bisa terasa lebih manusiawi dan menarik
Saya penasaran apakah model interaksi suara saat ini mengikuti proses standar speech → text → speech, atau sedang mengeksplorasi pemrosesan voice-to-voice
- Saya salah satu developernya. Model kami sepenuhnya voice-to-voice, dan justru karena itulah kami sama sekali tidak menggunakan teks saat membuat hertz-dev
- Paragraf kedua tampaknya menggambarkan ChatGPT Advanced Voice Mode atau Realtime API
Sangat keren. Saat ini saya sedang melihat-lihat VUI (voice user interface), jadi ini mungkin berguna
Saya mungkin agak bias karena saya mengambil PhD dengan meneliti bagaimana VUI memersuasi orang, tetapi saya rasa VUI adalah masa depan interaksi dengan komputer. Kalau bukan masa depan sepenuhnya, setidaknya ini bisa membuka kelompok pengguna baru seperti anak-anak dan lansia
- Saya sangat tertarik pada voice user interface. Penasaran sedang membuat apa dan apakah ada tautannya
- Betul, ada juga penyandang tunanetra
Kalau ada pembuat model suara atau orang yang mengerjakan hal terkait, saya penasaran apakah kalian pernah merasa suara yang keluar dari sistem terdengar menyeramkan atau memberi efek fisiologis
Ini semacam LLM, tetapi prompt-nya berupa audio dan output yang dihasilkan juga audio, jadi bisa dianggap sebagai audio LLM?
- Ya. Menurut saya, tampaknya memang bekerja persis seperti itu
Saya penasaran apakah gagasan “keruntuhan distribusi generatif” ini merupakan topik yang sudah diteliti. Kalau iya, saya ingin tahu biasanya disebut dengan nama apa
Menarik bahwa model dasar memodelkan distribusi data pelatihan secara akurat, sedangkan model yang telah melalui tuning reinforcement learning besar-besaran mengalami pelipatan distribusi generatif, sehingga model dasar menjadi titik awal yang lebih baik untuk fine-tuning pada berbagai tugas. Ini juga tampaknya berkaitan dengan continuous learning atau metode fine-tuning yang benar
Kalau ingin pretraining model dasar hertz-dev dalam bahasa lain, bagaimana caranya? Saya penasaran di mana bisa mendapatkan informasi terkait
Suaranya terdengar agak terdistorsi, dan sering ada noise di latar belakang. Terutama ketika suara berhenti, noise itu terasa jelas menghilang
Saya penasaran apakah ini batasan model, atau masalah kualitas data pelatihan
Bisakah salah satu penulis menjelaskan apa sebenarnya arti kalimat ini di artikel?
hertz-vae: decoder transformer 1,8 miliar parameter yang berperan sebagai prior terlatih untuk audio VAE. Ia menggunakan 8192 representasi laten yang disampling, yaitu konteks sepanjang 17 menit, dan memprediksi frame audio terenkode berikutnya sebagai campuran Gaussian. Disebutkan juga bahwa informasi kuantisasi 15-bit dari token berikutnya berfungsi sebagai pijakan semantik yang memandu generasi dengan cara yang dapat di-streaming
- Dugaan saya seperti ini. Pertama, codec tampaknya mengompresi audio 16k sample rate dengan convolution menjadi 8 sampel per detik, lalu melakukan vector quantization menjadi 128 bit untuk mendapatkan codec
  Jumlah bit ini jauh dari cukup untuk merepresentasikan audio yang sebenarnya, dan kemungkinan lebih ditujukan untuk merepresentasikan hal seperti fonem. vae tampaknya adalah model difusi berbasis VAE yang memakai codec sebagai prompt, dan dev tampaknya model yang memprediksi codec berikutnya
  Alur keseluruhannya kemungkinan adalah prompt ditokenisasi dengan codec, lalu jika dibutuhkan audio tambahan selama s detik, dev memprediksi 8 * s token lagi, dan setelah itu model difusi vae mengubahnya kembali menjadi audio

Hertz-dev, model dasar open source pertama untuk audio percakapan

Masalah audio percakapan yang dibidik Hertz-dev

Model yang dirilis dan latensinya

Arsitektur model: hertz-codec dan hertz-ar

hertz-codec

hertz-ar

Pembuatan sampel dan pilihan pelatihan

Metode inferensi real-time

Sifat rilis dan posisi pemanfaatannya

Bacaan terkait

1 komentar

Komentar Hacker News