2 poin oleh GN⁺ 2024-11-04 | 1 komentar | Bagikan ke WhatsApp
  • Standard Intelligence sedang meneliti pembelajaran lintas modalitas yang dapat diskalakan dan merilis hertz-dev, model dasar transformer khusus audio, sebagai open source.

  • hertz-dev memiliki 8,5 miliar parameter dan dioptimalkan untuk pemodelan audio.

  • hertz-codec

    • Merupakan autoencoder audio konvolusional yang mengubah suara mono 16kHz menjadi representasi laten 8Hz.
    • Pada bitrate 1kbps, performanya lebih baik daripada Soundstream dan Encodec, serta menunjukkan kinerja yang serupa dengan DAC.
    • Memiliki 5 juta parameter encoder dan 95 juta parameter decoder.
  • hertz-vae

    • Decoder transformer dengan 1,8 miliar parameter yang berperan sebagai prior terlatih untuk audio VAE.
    • Menggunakan 8192 representasi laten yang disampling untuk memprediksi frame audio terenkripsi berikutnya.
  • hertz-dev

    • Merupakan stack transformer dengan 6,6 miliar parameter.
    • Dilatih selama satu epoch dengan 500 miliar token, dengan sebagian bobot model bahasa pra-latih digunakan untuk inisialisasi.
    • Model ini merupakan titik awal yang cocok bagi peneliti untuk melakukan fine-tuning sesuai berbagai tugas.
    • Latensi teoretis pada RTX 4090 adalah 65ms, sedangkan latensi rata-rata nyata adalah 120ms.
  • Prospek ke depan

    • Hertz-dev adalah model yang memberi gambaran tentang masa depan interaksi suara real-time, dan mudah di-fine-tune serta diskalakan oleh para peneliti.
    • Versi Hertz yang lebih besar sedang dikembangkan, dan melalui tuning reinforcement learning diharapkan akan sangat meningkatkan kemampuan mentah model serta konsistensi akhirnya.
  • Contoh generasi

    • Untuk menunjukkan kemampuan pemodelan audio hertz-dev, disediakan sampel generasi saluran tunggal dan ganda, serta percakapan real-time antara model dan manusia.
  • Tujuan Standard Intelligence

    • Bertujuan membangun kecerdasan buatan umum dan saat ini terdiri dari tim beranggotakan 4 orang.
    • Mereka sedang merekrut orang-orang yang tertarik membangun AGI, dan juga menyambut pihak yang ingin berdiskusi soal investasi.

1 komentar

 
GN⁺ 2024-11-04
Komentar Hacker News
  • Orang yang mengerjakan model suara bertanya-tanya apakah suara yang dihasilkan sistem memiliki dampak fisiologis

    • Ini adalah model yang jauh lebih unggul dibanding mesin TTS open source yang sudah ada
    • Akan bagus jika ditambahkan kemampuan multimodal agar juga bisa menerima teks
    • Output seperti Piper bisa di-fine-tune agar diputar dengan intonasi yang lebih alami
    • Akan berguna jika text LLM dihubungkan ke Piper, lalu Piper ke Hertz-dev
  • Hertz disebut sebagai model pertama, tetapi ada model serupa bernama Moshi

  • Pendekatan swakemudi berbasis pure vision milik Tesla membuat teknologinya lebih mudah diakses dan diskalakan

    • Ini memungkinkan pengumpulan dataset berskala besar dan iterasi yang cepat
    • Setelah mencapai tahap matang, ada kemungkinan data sensor tambahan akan diintegrasikan kembali
  • Sedang mengeksplorasi ide tentang sistem interaksi suara

    • Saat ini sebagian besar interaksi suara mengubah suara menjadi teks lalu mengubahnya kembali menjadi audio
    • Jika bisa dikembangkan sistem yang merespons langsung dalam bentuk suara tanpa melalui teks, sistem itu dapat menghasilkan respons yang alami dan spontan
    • Penasaran apakah model interaksi suara mengikuti proses standar suara-ke-teks-ke-suara, atau sedang mengeksplorasi pemrosesan suara-ke-suara
  • Penasaran apa lisensi untuk bobot modelnya

  • Sampel suara sering mengeluarkan bunyi yang tidak bermakna, tetapi secara akustik sangat bagus

    • Dengan SD dan LLMs, debugging bisa dilakukan dengan meneliti respons terhadap perubahan kecil
    • Karena Hertz-dev menggunakan suara sebagai input, sulit membedakan token mana yang harus disesuaikan
    • Untuk penggunaan real-time, fiddling tidak memungkinkan
    • Penasaran bagaimana cara mempelajari perilaku Hertz-dev secara sistematis
  • Sedang mengeksplorasi VUI (Voice User Interface) dan tampaknya ini akan berguna

    • Menganggap VUI sebagai masa depan interaksi dengan komputer
    • Ini bisa menambahkan anak-anak dan lansia sebagai kelompok pengguna baru
  • Parameter codec mengingatkan pada codec suara militer dari tahun 2010

    • Menggunakan frame 120ms dan dikodekan dengan audio 16KHz
    • Tautan IEEE
  • Suaranya terdengar sedikit terdistorsi dan ada noise latar

    • Penasaran apakah ini batasan model, atau masalah kualitas data pelatihan
  • Tautan repositori Hertz-dev