9 poin oleh xguru 2024-03-29 | 1 komentar | Bagikan ke WhatsApp
  • Editor dokumen berbasis suara yang menggabungkan pengenalan suara dan perintah bahasa alami
  • Saat pengguna mengatakan seperti "tolong ubah menjadi daftar" atau "tolong tambahkan kutipan inline di halaman 86 buku ini", perintah tersebut akan dijalankan
  • Perangkat lunak pengenalan suara masih menawarkan pengalaman yang tidak nyaman dan rapuh
    • Perangkat lunak saling bersaing dalam akurasi, tetapi tidak menangani sifat rapuh dari teks yang dihasilkan
    • Pengguna harus mempelajari perintah khusus, dan itu masih belum memadai sebagai pengganti keyboard
  • Cara Aqua Voice menyelesaikannya
    • Aqua dapat menuliskan ucapan pengguna apa adanya, menjalankan perintah, atau menyempurnakan apa yang diucapkan menjadi tulisan sesuai maksud pengguna
    • Jika pengguna tergagap atau mengucapkan kalimat beberapa kali, Aqua hanya memilih versi final untuk diubah menjadi teks
  • Visi dan teknologi Aqua Voice
    • Bertujuan menghadirkan pengalaman pengenalan suara yang lebih alami dan pengalaman menulis AI yang kolaboratif
    • Menyediakan layanan berbasis streaming yang terus terhubung dengan model secara real-time
    • Enam model bekerja sama untuk menerjemahkan, menafsirkan, dan menulis ulang dokumen sesuai intent
    • Menggunakan transkripsi MoE(Mixture of Experts) untuk meningkatkan akurasi secara real-time

1 komentar

 
xguru 2024-03-29

Opini Hacker News

  • Keren! Beberapa masukan:

    • Istilah '1000 token' tidak berarti bagi pengguna nonteknis, dan buat saya pun hampir tidak berarti. Cukup beri tahu saya berapa banyak kata yang bisa saya ucapkan.
    • Tabel tingkat kesalahan LaTeX dengan font serif itu juga terlalu membosankan. Orang-orang ingin sesuatu yang mencolok seperti 'hingga 7x lebih sedikit kesalahan dibanding dikte macOS'. Bukan tabel perbandingan.
    • '0.05 word error rate' juga sebaiknya dihapus. Jelaskan artinya dan gunakan persentase.
    • 'Lupa nama, kata, fakta, atau angka? Minta Aqua untuk mengisinya.' Akan bagus jika fitur ini bisa dimatikan, atau setidaknya ada penanda yang jelas saat sesuatu yang tidak saya ucapkan dimasukkan ke dalam dokumen. Saat saya mendikte, biasanya saya ingin hanya kata-kata yang saya ucapkan yang muncul di halaman.
  • Seperti yang dikatakan orang lain, kerja bagus.

    • Ini sepertinya akan sangat bagus terutama di ponsel atau jam tangan. Kemampuan membuat catatan di tempat yang pengalaman keyboard-nya kurang nyaman terasa seperti game changer yang nyata.
    • Sudah pernah dipakai untuk menulis kode? Ini bisa sangat luar biasa sebagai plugin IDE/editor teks.
    • Senang melihat ini tidak melakukan hal-hal AI yang bikin menyesal. Banyak aplikasi yang kita lihat itu mengerikan. Yang Anda buat luar biasa dan jauh dari pengalaman pabrik cokelat terkutuk.
  • Saya mengalami cedera terkait RSI pada 94/95 dan sejak itu memakai pengenalan suara. Saya ingin solusi yang membuat saya bisa lepas dari Windows. Saya ingin solusi yang memungkinkan dikte dengan mudah di Firefox, Thunderbird, dan VS Code. Yang paling penting adalah fitur pengeditan/manipulasi teks yang oleh Nuance disebut 'Select-and-Say'. Bisa melakukan edit kecil, mengganti kalimat dengan dikte baru, dan hal-hal seperti itu membuat penggunaan suara jauh lebih mudah daripada sekadar dikte yang ditangkap seperti kebanyakan aplikasi whisper.

    • Hal penting berikutnya adalah kemampuan menulis action routine untuk tata bahasa. Preferensi saya adalah Python, karena itu target termudah saat menulis kode dengan chatGPT. Tapi saya mungkin bisa mempelajari bahasa lain juga (kecuali JavaScript, saya membencinya). Saya merujuk ke paket 'natPython' milik Joel Gould. Di sana ada presentasi aslinya dan hal-hal yang dibangun orang.
    • Ada pelajaran dari masa lalu. Pada tahap awal DragonDictate/NaturallySpeaking, saat Baker menjalankan Dragon Systems, mereka rutin mengirim karyawan ke pertemuan kelompok pengguna pengenalan suara lokal untuk mendengar dari kami apa yang berhasil dan apa yang gagal. Mereka tahu bahwa melihat kami para penyandang disabilitas akan memberi mereka lebih banyak informasi tentang cara membangun lingkungan pengenalan suara yang bagus dibanding komunitas pengguna mana pun. Kami menemukan corner case lebih dulu daripada siapa pun. Mereka melakukan beberapa hal yang bagus. Misalnya, mereka mendukung beberapa pertemuan kelompok pengguna pengenalan suara dengan menyediakan ruang dan waktu staf.
    • Nuance tampaknya melupakan pelajaran itu.
    • Bagaimanapun, saya tadinya mau bekerja hari ini, tapi presentasi Anda menembaknya tepat di kepala. :-)
    • [Ditambahkan kemudian] Ini benar-benar mengesankan. Jelas saya perlu meluangkan lebih banyak waktu untuk ini. Saya bisa melihat bahwa pengalaman saya dengan Naturally Speaking membatasi sudut pandang saya, sedangkan Anda punya pandangan yang jauh lebih luas tentang seperti apa antarmuka pengguna itu bisa dibuat.
  • Saya menginginkan sesuatu seperti ini untuk input data. Sering kali tangan saya penuh saat mengukur sesuatu dan saya perlu membuat catatan. Bisakah ini menghasilkan/memformat data berbentuk tabel?

  • Ini benar-benar hebat. Saya berharap seseorang membuat ini:

    • Saya rela membayar $10/bulan untuk ini. Tapi yang benar-benar saya inginkan adalah salah satu dari berikut ini:
      • Plugin Raycast atau aplikasi desktop yang memungkinkan ini berinteraksi dengan semua area teks yang bisa diedit di lingkungan saya
      • API tempat saya bisa mengirim teks/konteks yang ada + aliran audio, lalu menerima heartbeat pembaruan dokumen penuh, sehingga komunitas bisa membangun plugin Obsidian/VSCode/browser untuk wilayah besar input teks
    • Saya akan tetap membayar $10 sore ini, dan selamat!
  • Perangkat lunak dikte sangat penting di industri medis. Semua dokter menggunakannya, dan sesuatu seperti solusi Anda bisa membuat pekerjaan mereka jauh lebih efisien. Apakah Anda sudah menjajaki segmen pasar ini?

  • Ini luar biasa! Sangat memuaskan untuk digunakan, dan kombinasi transkripsi + niat tampaknya punya potensi yang sangat besar.

    Saya ingin memakai ini untuk mendikte surat pasien dan semacamnya. Apakah model lokal/kepatuhan HIPAA masih jauh?

  • Selamat atas peluncurannya!

    Sebagai sesama orang neurodivergen yang jauh lebih baik bekerja dengan teks daripada suara, saya sangat menyukai ide ini. Satu-satunya masukan saya adalah... saya ingin menjalankan ini dengan kontrol yang lebih besar. Saya sudah menjalankan LLM secara lokal (misalnya LM Studio), dan juga bisa menjalankan hal seperti whisper. Saya paham bahwa membuatnya open source (atau membuat source code-nya tersedia) mungkin bertentangan dengan upaya komersialisasi. Namun mungkin ada beberapa opsi seperti Red Hat, di mana penggunaan bisnis dikenai biaya sementara penggunaan pribadi bisa gratis jika dijalankan secara lokal.

    Di satu sisi, Anda punya keunggulan first-mover yang kuat di area yang bisa memberi manfaat dan dipakai banyak orang, tetapi seseorang mungkin bisa menghadirkan kompetisi dengan merangkai beberapa lapisan keluaran dari beberapa LLM (proyek seperti itu sering kali open source, walau kadang kurang 'matang'). Jika Anda menawarkan kesepakatan yang bagus, mungkin ada peluang sukses besar. Semoga berhasil!

  • Ini keren, mungkin saya akan berlangganan—saya hanya perlu mengurangi langganan lain saya—akhir-akhir ini terlalu banyak produk AI menggoda.

  • Ini tidak dijelaskan secara eksplisit, tetapi saya ingin tahu data apa yang dikirim ke cloud — saya berasumsi rekaman suara lengkap. Atau apakah STT dilakukan di perangkat? Juga, apa kebijakan privasi/retensi Anda untuk data ini? Demo yang hebat dan produk yang keren!