- hertz-dev dirilis sebagai model dasar khusus audio full-duplex berparameter 8.5B yang mampu menangani situasi dua orang berbicara secara bersamaan, sehingga menjadi titik awal riset agen suara real-time
- Arsitekturnya terbagi menjadi hertz-codec dan hertz-ar; suara 16kHz diubah menjadi representasi laten 8Hz, lalu nilai laten audio berikutnya diprediksi secara autoregresif berdasarkan nilai laten sebelumnya
- Dengan satu RTX 4090, latensi rata-rata aktual dibenchmark di 120ms, dan latensi rata-rata teoretis disajikan sebesar 80ms, yakni 2 kali lebih rendah daripada tingkat terbaik sebelumnya
- hertz-codec menghasilkan 1 nilai laten berdimensi 32 setiap frame 125ms, dan hertz-ar menggunakan transformer decoder-only 40 lapis berparameter 8.4B dengan konteks sekitar 4,5 menit
- Karena ini adalah model dasar yang memprediksi distribusi data pelatihan, bukan model produk yang menyempitkan distribusi respons lewat fine-tuning reinforcement learning, peneliti dapat lebih mudah melakukan fine-tuning untuk tugas audio percakapan
Masalah audio percakapan yang dibidik Hertz-dev
- Untuk agen interaktif yang alami, modalitas audio yang langsung lebih penting daripada teks
- Pendekatan audio generatif secara umum terbagi menjadi metode berbasis difusi dan metode autoregresif; model difusi unggul untuk generasi musik atau sampel pendek, tetapi untuk audio percakapan nyata metode autoregresif lebih cocok
- Ada dua tantangan inti yang harus diselesaikan model percakapan
- Generasi audio yang terdengar seperti manusia dan penanganan interupsi yang alami
- Penanganan situasi ketika dua kanal real-time secara bersamaan menghasilkan informasi, seperti pada percakapan manusia biasa
Model yang dirilis dan latensinya
- hertz-dev adalah model dasar khusus audio 8.5B parameter, full-duplex
- Dirancang sesuai format dua pembicara sehingga dapat mem-parsing dan menghasilkan audio dua pembicara yang saling tumpang tindih
- Beroperasi di ruang laten yang menggunakan bit fonetik terkuantisasi, dan hanya melakukan sampling satu nilai laten di setiap timestep
- Latensinya disajikan sebagai berikut
- Latensi rata-rata teoretis: 80ms
- Benchmark aktual pada satu RTX 4090: 120ms
- Angka ini 2 kali lebih rendah daripada tingkat terbaik sebelumnya
Arsitektur model: hertz-codec dan hertz-ar
- hertz-dev terbagi menjadi dua komponen
- hertz-codec: mengenkode audio menjadi nilai laten lalu memulihkannya kembali menjadi audio
- hertz-ar: memprediksi nilai laten masa depan dengan mengondisikan pada nilai laten sebelumnya
- Nilai laten audio diperlakukan sebagai representasi awal yang kaya dan dapat digunakan untuk berbagai tugas downstream
-
hertz-codec
- hertz-codec adalah audio VAE konvolusional yang menerima suara mono 16kHz dan mengenkodenya menjadi representasi laten 8Hz
- Menggunakan bitrate 1kbps yang diregularisasi KL
- Untuk inferensi streaming, model ini memakai causal convolution, yang secara fungsional menambahkan padding di sisi kiri sekuens
- Codec mengeluarkan parameter Gaussian berupa mean dan variance, lalu melakukan sampling menjadi satu nilai laten 32 dimensi setiap frame 125ms
- Dalam evaluasi subjektif, hertz-codec melampaui Soundstream dan Encodec 6kbps, serta dinilai berada pada tingkat yang mirip dengan DAC 8kbps
- Karena jumlah token per detiknya lebih rendah daripada tokenizer populer, ini menguntungkan untuk language modeling
- Konfigurasi parameter
- Encoder: 5M parameter
- Decoder: 95M parameter
- Checkpoint yang dirilis
- inference_apatosaurus_95000.pt: bobot
hertz-codecyang dilatih dengan rekonstruksi campuran, loss adversarial, dan loss regularisasi KL - inference_volcano_3.pt:
hertz-codec quantizeryang mendistilasi 15 bit penting secara fonetik dari setiap nilai laten
- inference_apatosaurus_95000.pt: bobot
-
hertz-ar
- hertz-ar adalah transformer decoder-only 40 lapis berparameter 8.4B
- Konteks inputnya 2048 token, setara dengan sekitar 4,5 menit
- Nilai laten output dapat diteruskan ke hertz-codec
- 32 lapis pertama menerima riwayat laten sebagai input dan memprediksi nilai proyeksi kuantisasi 15 bit dari token laten audio berikutnya
- Bagian 32 lapis ini disebut
hertz-lm, dan dapat dilatih secara independen atau diinisialisasi dari bobot language model - 8 lapis terakhir menggunakan riwayat laten dan nilai laten kuantisasi 15 bit untuk memprediksi token laten audio masa depan
- Audio duplex ditangani sebagai tugas pascapelatihan
- Dua projection head disambungkan lalu dipisahkan kembali
- Diproses melalui dua pipeline projection kuantisasi yang dikondisikan pada residual masing-masing
- Checkpoint yang dirilis
- inference_caraway_112000.pt: bobot
hertz-lmyang diinisialisasi dari language model yang dilatih dengan 2T token - inference_syrup_110000.pt: bobot
hertz-lmyang sepenuhnya dilatih pada nilai laten audio setelah inisialisasi acak - inference_whip_72000.pt: bobot
hertz-aruntuk 8 lapis terakhir - inference_care_50000.pt, inference_scion_54000.pt: checkpoint duplex untuk
hertz-ar
- inference_caraway_112000.pt: bobot
Pembuatan sampel dan pilihan pelatihan
- Untuk menunjukkan kemampuan pemodelan audionya, disediakan sampel generasi kanal tunggal, generasi dua kanal, dan sampel percakapan langsung antara manusia dan model
- Sampel interaktif mencakup prompt 9 detik
- Pilihan pelatihan utamanya adalah sebagai berikut
- hertz-codec menggunakan Causal ConvNets agar decoding paralel dan kontrol yang lebih halus atas generasi laten dapat dilakukan
- Nilai laten kuantisasi 15 bit dilatih sejak awal agar memuat informasi fonetik, sehingga mendorong model menghasilkan ujaran yang benar secara sintaksis
- Kuantisasi dilakukan dengan memasukkan projection MLP ke dalam layer Finite Scalar Quantization
- Pada
hertz-lm, dua strategi inisialisasi diuji melalui studi ablasi, dan disajikan bahwa model tetap mempelajari linguistik secara efektif terlepas dari ada atau tidaknya inisialisasi model teks
Metode inferensi real-time
- Saat inferensi langsung, model melakukan 8 forward pass per detik dan terus melanjutkan generasi autoregresif
- Input terdiri dari dua kanal terpisah, tetapi dalam percakapan hanya satu kanal yang dikembalikan
- Pada setiap langkah, audio manusia ditokenisasi menjadi nilai laten, lalu digabungkan dengan nilai laten terakhir yang dihasilkan model dan dimasukkan ke
hertz-ar - Latensi diukur sebagai waktu rata-rata antara ujaran pengguna dan respons model
- Secara komputasional, latensi rata-rata adalah 62,5ms, yang mencakup waktu rata-rata antara ujaran acak dan akhir satu token, waktu forward pass, serta latensi internet bolak-balik
- Saat dijalankan di RTX 4090 lokal, latensi rata-rata aktual biasanya 120ms
- Latensi rendah adalah syarat untuk membuat model yang berinteraksi seperti manusia, tanpa terasa seperti panggilan telepon yang tertunda dan terputus-putus
Sifat rilis dan posisi pemanfaatannya
- hertz-dev diperkenalkan sebagai model dasar terbuka pertama untuk audio percakapan
- Dalam konteks ini, model dasar berarti bukan model yang sangat mempersempit distribusi generasi lewat fine-tuning reinforcement learning, melainkan model yang secara akurat memprediksi distribusi data pelatihan
- Karena sifat ini, model tersebut cocok digunakan sebagai titik awal fine-tuning untuk berbagai tugas downstream
- Sumber daya terkait
1 komentar
Komentar Hacker News
Ini benar-benar keren. Sebagai catatan, mesin sintesis suara open source yang sudah ada sejauh ini cukup kalah jauh dibanding yang ditunjukkan di sini, jadi saat ini memang voice-to-voice, tetapi kalau nanti diperluas menjadi bentuk multimodal yang juga bisa menerima teks, sepertinya akan sangat diminati
Praktis ini berarti menjadi model voice-to-voice yang sangat bagus sekaligus model TTS yang sangat bagus. Mungkin saja seseorang bisa mengakali dengan melakukan fine-tuning agar keluaran seperti Piper diputar dengan prosodi dan intonasi yang lebih alami, tetapi dibanding menyambungkan pipeline teks LLM → Piper → Hertz-dev, kemampuan menerima teks secara native tampaknya akan jauh lebih berguna
Hanya saja, belum tentu ini harus dikerjakan langsung oleh tim ini sendiri
Meski Hertz disebut yang pertama, Moshi yang rilis awal tahun ini juga merupakan model suara dua arah yang bekerja dengan cara serupa dan bisa berjalan di MacBook: https://github.com/kyutai-labs/moshi
Hertz juga tampaknya hanya memperlihatkan 3 notebook inferensi dan kode model yang penuh dengan
no_grad, tanpa kode pelatihan. Juga tidak ada paper, jadi sulit memahami bagaimana model ini dilatih dan seperti apa arsitekturnya; kalau saya tidak melewatkan sesuatu, agak sulit menyebutnya ramah untuk risetmoshi https://github.com/kyutai-labs/moshi adalah model berbasis speech-text yang menggunakan codec audio neural streaming terbaru, Mimi, dan Mini-Omni https://github.com/gpt-omni/mini-omni adalah LLM multimodal berbasis Qwen2 yang menyediakan input/output suara. Ichigo https://github.com/homebrewltd/ichigo adalah proyek riset terbuka yang memperluas LLM berbasis teks dengan kemampuan mendengar native menggunakan teknik early fusion
Fokus Tesla pada autonomous driving berbasis vision murni, sambil untuk sementara menyingkirkan lidar dan sensor lain, tampak seperti strategi untuk membuat teknologinya lebih mudah diakses dan lebih scalable
Dengan berfokus pada model vision-only, adopsi bisa dipercepat dan pengumpulan data skala besar untuk perbaikan iteratif juga bisa lebih cepat. Jika sistem berbasis vision cukup matang, Tesla mungkin saja nantinya mengintegrasikan kembali data sensor seperti lidar atau radar untuk membuat lini produk self-driving yang lebih kokoh dan matang
Saya juga terpikir ide serupa untuk sistem interaksi suara. Saat ini kebanyakan sistem mengubah suara menjadi teks, membuat respons teks, lalu mengubahnya kembali menjadi suara. Tetapi kalau bisa dilatih untuk merespons langsung dalam bentuk suara tanpa lewat teks, mungkin responsnya bisa lebih alami dan spontan. Ucapan alami punya struktur kalimat dan ritme yang khas, juga perbedaan dialek dan nada, jadi sistem yang dilatih murni pada suara tampaknya bisa terasa lebih manusiawi dan menarik
Saya penasaran apakah model interaksi suara saat ini mengikuti proses standar speech → text → speech, atau sedang mengeksplorasi pemrosesan voice-to-voice
Sangat keren. Saat ini saya sedang melihat-lihat VUI (voice user interface), jadi ini mungkin berguna
Saya mungkin agak bias karena saya mengambil PhD dengan meneliti bagaimana VUI memersuasi orang, tetapi saya rasa VUI adalah masa depan interaksi dengan komputer. Kalau bukan masa depan sepenuhnya, setidaknya ini bisa membuka kelompok pengguna baru seperti anak-anak dan lansia
Kalau ada pembuat model suara atau orang yang mengerjakan hal terkait, saya penasaran apakah kalian pernah merasa suara yang keluar dari sistem terdengar menyeramkan atau memberi efek fisiologis
Ini semacam LLM, tetapi prompt-nya berupa audio dan output yang dihasilkan juga audio, jadi bisa dianggap sebagai audio LLM?
Saya penasaran apakah gagasan “keruntuhan distribusi generatif” ini merupakan topik yang sudah diteliti. Kalau iya, saya ingin tahu biasanya disebut dengan nama apa
Menarik bahwa model dasar memodelkan distribusi data pelatihan secara akurat, sedangkan model yang telah melalui tuning reinforcement learning besar-besaran mengalami pelipatan distribusi generatif, sehingga model dasar menjadi titik awal yang lebih baik untuk fine-tuning pada berbagai tugas. Ini juga tampaknya berkaitan dengan continuous learning atau metode fine-tuning yang benar
Kalau ingin pretraining model dasar hertz-dev dalam bahasa lain, bagaimana caranya? Saya penasaran di mana bisa mendapatkan informasi terkait
Suaranya terdengar agak terdistorsi, dan sering ada noise di latar belakang. Terutama ketika suara berhenti, noise itu terasa jelas menghilang
Saya penasaran apakah ini batasan model, atau masalah kualitas data pelatihan
Bisakah salah satu penulis menjelaskan apa sebenarnya arti kalimat ini di artikel?
hertz-vae: decoder transformer 1,8 miliar parameter yang berperan sebagai prior terlatih untuk audio VAE. Ia menggunakan 8192 representasi laten yang disampling, yaitu konteks sepanjang 17 menit, dan memprediksi frame audio terenkode berikutnya sebagai campuran Gaussian. Disebutkan juga bahwa informasi kuantisasi 15-bit dari token berikutnya berfungsi sebagai pijakan semantik yang memandu generasi dengan cara yang dapat di-streamingcodectampaknya mengompresi audio 16k sample rate dengan convolution menjadi 8 sampel per detik, lalu melakukan vector quantization menjadi 128 bit untuk mendapatkan codecJumlah bit ini jauh dari cukup untuk merepresentasikan audio yang sebenarnya, dan kemungkinan lebih ditujukan untuk merepresentasikan hal seperti fonem.
vaetampaknya adalah model difusi berbasis VAE yang memakai codec sebagai prompt, dandevtampaknya model yang memprediksi codec berikutnyaAlur keseluruhannya kemungkinan adalah prompt ditokenisasi dengan
codec, lalu jika dibutuhkan audio tambahan selama s detik,devmemprediksi 8 * s token lagi, dan setelah itu model difusivaemengubahnya kembali menjadi audio