-
Standard Intelligence sedang meneliti pembelajaran lintas modalitas yang dapat diskalakan dan merilis hertz-dev, model dasar transformer khusus audio, sebagai open source.
-
hertz-dev memiliki 8,5 miliar parameter dan dioptimalkan untuk pemodelan audio.
-
hertz-codec
- Merupakan autoencoder audio konvolusional yang mengubah suara mono 16kHz menjadi representasi laten 8Hz.
- Pada bitrate 1kbps, performanya lebih baik daripada Soundstream dan Encodec, serta menunjukkan kinerja yang serupa dengan DAC.
- Memiliki 5 juta parameter encoder dan 95 juta parameter decoder.
-
hertz-vae
- Decoder transformer dengan 1,8 miliar parameter yang berperan sebagai prior terlatih untuk audio VAE.
- Menggunakan 8192 representasi laten yang disampling untuk memprediksi frame audio terenkripsi berikutnya.
-
hertz-dev
- Merupakan stack transformer dengan 6,6 miliar parameter.
- Dilatih selama satu epoch dengan 500 miliar token, dengan sebagian bobot model bahasa pra-latih digunakan untuk inisialisasi.
- Model ini merupakan titik awal yang cocok bagi peneliti untuk melakukan fine-tuning sesuai berbagai tugas.
- Latensi teoretis pada RTX 4090 adalah 65ms, sedangkan latensi rata-rata nyata adalah 120ms.
-
Prospek ke depan
- Hertz-dev adalah model yang memberi gambaran tentang masa depan interaksi suara real-time, dan mudah di-fine-tune serta diskalakan oleh para peneliti.
- Versi Hertz yang lebih besar sedang dikembangkan, dan melalui tuning reinforcement learning diharapkan akan sangat meningkatkan kemampuan mentah model serta konsistensi akhirnya.
-
Contoh generasi
- Untuk menunjukkan kemampuan pemodelan audio hertz-dev, disediakan sampel generasi saluran tunggal dan ganda, serta percakapan real-time antara model dan manusia.
-
Tujuan Standard Intelligence
- Bertujuan membangun kecerdasan buatan umum dan saat ini terdiri dari tim beranggotakan 4 orang.
- Mereka sedang merekrut orang-orang yang tertarik membangun AGI, dan juga menyambut pihak yang ingin berdiskusi soal investasi.
1 komentar
Komentar Hacker News
Orang yang mengerjakan model suara bertanya-tanya apakah suara yang dihasilkan sistem memiliki dampak fisiologis
Hertz disebut sebagai model pertama, tetapi ada model serupa bernama Moshi
Pendekatan swakemudi berbasis pure vision milik Tesla membuat teknologinya lebih mudah diakses dan diskalakan
Sedang mengeksplorasi ide tentang sistem interaksi suara
Penasaran apa lisensi untuk bobot modelnya
Sampel suara sering mengeluarkan bunyi yang tidak bermakna, tetapi secara akustik sangat bagus
Sedang mengeksplorasi VUI (Voice User Interface) dan tampaknya ini akan berguna
Parameter codec mengingatkan pada codec suara militer dari tahun 2010
Suaranya terdengar sedikit terdistorsi dan ada noise latar
Tautan repositori Hertz-dev