2 poin oleh GN⁺ 2026-01-17 | 1 komentar | Bagikan ke WhatsApp
  • Handy adalah aplikasi desktop konversi suara-ke-teks gratis dan open source yang berjalan sepenuhnya offline, dengan desain yang berfokus pada privasi
  • Dibangun dengan Tauri (Rust + React/TypeScript), sehingga pengguna bisa menekan shortcut lalu berbicara, dan suara langsung dimasukkan ke kolom teks
  • Mendukung model Whisper dan Parakeet V3, serta melakukan pengenalan suara secara lokal dengan akselerasi GPU atau berbasis CPU
  • Berjalan di Windows, macOS, dan Linux, serta dikembangkan dengan struktur yang menekankan ekstensibilitas dan kemudahan fork untuk mendorong kontribusi developer
  • Sebagai alat input suara berfokus pada privasi yang diproses secara lokal tanpa pengiriman ke cloud, aplikasi ini menawarkan aksesibilitas dan kemungkinan kustomisasi yang tinggi

Ikhtisar

  • Handy adalah aplikasi pengenalan suara yang gratis, open source, dan dapat diperluas yang berjalan sepenuhnya offline tanpa koneksi internet
  • Dibangun di atas framework Tauri dengan kombinasi backend Rust dan frontend React/TypeScript
  • Pengguna menekan shortcut untuk berbicara, lalu saat dilepas, model Whisper atau Parakeet V3 mengubah suara menjadi teks dan menempelkannya ke aplikasi yang sedang aktif
  • Semua data suara diproses secara lokal sehingga tidak ada risiko kebocoran data pribadi

Filosofi Handy

  • Gratis: alat aksesibilitas harus bisa digunakan oleh semua orang
  • Open source: siapa pun bisa memperluas dan meningkatkan fiturnya
  • Menjaga privasi: data suara tidak dikirim ke cloud
  • Kesederhanaan: fokus pada satu tujuan, yaitu mengubah suara menjadi teks
  • Tujuannya bukan membuat aplikasi yang “paling sempurna”, melainkan aplikasi yang “paling mudah di-fork”

Cara kerja

  • Pengguna dapat memulai atau menghentikan perekaman dengan shortcut atau menggunakan mode push-to-talk
  • Silero VAD digunakan untuk memfilter bagian hening, lalu model Whisper atau Parakeet V3 mengubah suara menjadi teks
    • Model Whisper: tersedia versi Small, Medium, Turbo, dan Large, dengan dukungan akselerasi GPU
    • Parakeet V3: dioptimalkan untuk CPU, termasuk fitur deteksi bahasa otomatis
  • Teks hasil konversi otomatis dimasukkan ke kolom input aplikasi yang sedang digunakan
  • Mendukung Windows, macOS, Linux

Arsitektur

  • Frontend: React + TypeScript + Tailwind CSS
  • Backend: berbasis Rust, menangani pemrosesan audio dan inferensi machine learning
  • Library inti
    • whisper-rs: pengenalan suara lokal untuk model Whisper
    • transcription-rs: pengenalan berbasis CPU untuk model Parakeet
    • cpal: input/output audio
    • vad-rs: deteksi aktivitas suara
    • rdev: shortcut global dan penanganan event sistem
    • rubato: resampling audio
  • Mode debug: dapat diakses dengan Cmd+Shift+D (macOS) atau Ctrl+Shift+D (Windows/Linux)

Masalah yang diketahui dan batasan

  • Crash pada model Whisper: ada masalah crash pada beberapa lingkungan Windows/Linux
  • Dukungan Wayland terbatas: di lingkungan Linux Wayland, perlu memasang wtype atau dotool
  • Alat input teks
    • X11: xdotool
    • Wayland: wtype atau dotool
    • Jika alat tidak terpasang, akan digantikan dengan enigo, tetapi kompatibilitasnya terbatas
  • Overlay Linux nonaktif secara default: dimatikan secara bawaan untuk mencegah konflik fokus

Kebutuhan sistem

  • Untuk model Whisper
    • macOS: seri M atau Intel Mac
    • Windows/Linux: GPU Intel, AMD, NVIDIA (Ubuntu 22.04/24.04 direkomendasikan)
  • Untuk model Parakeet V3
    • CPU-only, direkomendasikan Intel Skylake (generasi ke-6) atau lebih baru
    • Sekitar 5x lebih cepat dari realtime pada hardware kelas menengah
    • Termasuk fitur deteksi bahasa otomatis

Roadmap pengembangan

  • Fitur yang sedang dikerjakan
    • Menambahkan file log debug
    • Peningkatan shortcut macOS (dukungan tombol Globe, penulisan ulang penanganan shortcut global)
    • Fitur analitik opsional: pengumpulan data penggunaan anonim berbasis persetujuan eksplisit
    • Refactoring sistem pengaturan dan peningkatan abstraksi
    • Perapihan struktur perintah Tauri dan peningkatan type safety

Pemecahan masalah dan instalasi model manual

  • Di lingkungan dengan pembatasan jaringan, model dapat diunduh dan dipasang secara manual
  • Buat folder models di dalam direktori data aplikasi lalu tempatkan file model
    • Model Whisper: salin langsung file .bin
    • Model Parakeet: ekstrak file .tar.gz lalu pertahankan nama folder yang ditentukan
  • Setelah instalasi, model akan terdeteksi otomatis saat aplikasi dijalankan ulang

Cara berkontribusi

  • Periksa issue di GitHub lalu buat fork dan branch
  • Lakukan pengujian yang memadai di platform target sebelum mengirim Pull Request
  • Bisa ikut komunitas melalui email (contact@handy.computer) atau Discord
  • Tujuannya adalah menyediakan fondasi yang bisa dikembangkan komunitas melalui codebase yang sederhana dan terstruktur dengan baik

Proyek terkait dan lisensi

  • Handy CLI: versi command line berbasis Python
  • handy.computer: situs resmi dan demo
  • Didistribusikan dengan lisensi MIT
  • Berbasis pada proyek open source seperti Whisper (OpenAI), Silero, Tauri, dan lainnya

Kutipan

  • Handy dapat mengakhiri pencarian Anda untuk alat pengenalan suara bukan karena sudah sempurna, tetapi karena Anda bisa membuatnya menjadi sempurna.”

1 komentar

 
GN⁺ 2026-01-17
Komentar Hacker News
  • Saya sudah mencoba berbagai aplikasi STT, tapi akhirnya menetap di VoiceInk (lokal, bayar sekali)
    Jika dipakai bersama Parakeet V3, responsnya nyaris instan dan akurasinya juga sudah cukup baik
    Saya sering memakai rutinitas berbicara ke agen CLI lalu meminta, “tolong beri tahu bagaimana kamu memahami ucapanku”
    Dengan begitu, saya bisa memverifikasi pemahaman sekaligus menjadikannya semacam spesifikasi
    Belakangan saya juga mencoba kombinasi Handy + Parakeet v3, dan hasilnya bekerja sangat baik, jadi saya berencana memakainya beberapa hari ke depan
    Jika menekan Cmd‑Shift‑D untuk membuka UI “debug”, Anda juga bisa melihat opsi tambahan seperti post‑processing atau penambahan spasi
    • Akan bagus kalau salah satu model seperti ini dioptimalkan khusus untuk pemrograman
      Saya ingin bisa mengucapkan perintah seperti “cd ~/projects” atau “git push --force”
  • Saya punya distonia (dystonia), jadi saat lengan saya kaku saya tidak bisa mengetik di keyboard
    Karena itu, aplikasi TTS seperti SuperWhisper sangat membantu
    Saya berharap Handy juga bisa memberikan pengalaman serupa
    Namun, menurut saya agar bisa berkembang ke tahap berikutnya, aplikasi seperti ini perlu melampaui sekadar mengubah suara menjadi teks dan membutuhkan ekspansi berbasis konteks
    Misalnya, jika kita mendiktekan kode di dalam IDE, hasilnya benar-benar menjadi kode
    Pada akhirnya arahnya adalah menggabungkan TTS dengan penggunaan komputer
    • Saya membuat tool CLI bernama ultraplan
      Tool ini merekam suara dengan Whisper lokal dan menyimpan screenshot, isi clipboard, dan lain-lain dalam bentuk timeline
      Setelah itu, agen seperti Claude Code membaca timeline tersebut dan melanjutkan pekerjaan
      Kontrol hands-free juga dimungkinkan, misalnya dengan mengucapkan “marco” untuk mengambil screenshot
      Kalau ada yang tertarik, saya bisa rapikan lalu unggah ke GitHub
    • Saya setuju dengan pendapat Anda. Karena itulah saya merilis Handy sebagai open source
      Ada juga eksperimen untuk memahami konteks komputer dengan model lokal kecil (moondream, qwen, dll.)
      Dulu saat jari saya patah, saya pernah memetakan shortcut ke Handy untuk membuat kontrol konteks sederhana
    • “Coding dengan suara” sudah banyak diteliti bahkan sebelum era LLM
      Misalnya ada contoh dari 2013 seperti Using Voice to Code Faster than Keyboard
      Untuk riset yang lebih baru, ada juga makalah ini
    • Fitur yang Anda maksud sebenarnya sudah memungkinkan
      Jika output STT dimasukkan ke LLM, sistem bisa memahami niat lalu menghasilkan sekumpulan perintah
      Di CLI, cukup mudah mengubah perintah suara langsung menjadi perintah shell
      Di GUI, hal ini sedikit lebih rumit karena perlu mengetahui keadaan layar
      MacWhisper di macOS bisa mengirim teks hasil dikte ke endpoint yang kompatibel dengan OpenAI
  • Ini ulasan singkat saya setelah mencoba beberapa aplikasi transkripsi suara
    Superwhisper berbayar, tapi punya opsi lisensi seumur hidup dan fiturnya banyak. Karena dikelola satu pengembang, kadang ada bug
    Hex adalah opsi gratis yang paling ringan dan rapi
    Fluid Voice punya fitur unik yang menampilkan teks secara real-time saat kita sedang berbicara
    Handy punya UI merah muda yang lucu dan saya suka jendela riwayatnya. Pengaturan pemulihan clipboard-nya agak unik
    Saat saya memasang dan mencopot beberapa aplikasi secara bergantian, sempat ada sedikit konflik
    Berkat Nvidia yang merilis Parakeet sebagai open source, semuanya jadi sangat cepat
    Saya lebih suka fitur streaming transkripsi real-time: meski kualitasnya lebih rendah, hasilnya langsung terlihat, lalu nanti diganti dengan versi berkualitas tinggi
  • Setelah mencari aplikasi STT selama beberapa minggu, saya menemukan Handy
    Kebanyakan berbayar atau berbasis langganan, sampai saya sempat mempertimbangkan membuatnya sendiri, tapi Handy cepat, sederhana, dan tidak mengganggu
    Ditambah lagi, aplikasinya terus diperbarui, jadi saya benar-benar puas
    Fitur post‑processing juga terdengar menarik
  • Saya memakai Wispr Flow, dan agar saya mau beralih, saya butuh fitur kamus pengguna untuk kata-kata yang sering salah dikenali (nama perusahaan, nama orang, nama library, dll.)
    • Sepertinya yang Anda maksud adalah fitur “Custom Words”. Saya sendiri belum sempat mengujinya dengan benar
    • PR terkait kemungkinan akan segera di-merge, jadi Anda juga bisa membangun versi pratinjau dan mencobanya lebih awal
    • Beberapa model menampilkan confidence per kata
      Menambahkan kata secara manual memang bagus, tapi jika kata-kata yang tidak pasti bisa ditandai, itu akan memudahkan perbaikan
  • Ada satu hal yang perlu diperhatikan
    Shortcut bawaan adalah Ctrl+Space, dan transkripsi dimasukkan saat tombol dilepas
    Jika pada saat itu Ctrl masih dalam keadaan ditekan, teks hasil transkripsi akan diproses sebagai karakter Ctrl
    Lingkungan pengujiannya adalah Linux x64, X11, dan Emacs
  • Saya memakai Handy bersama Parakeet v3, dan hasilnya benar-benar luar biasa
    Saya juga pernah mencoba Monologue, Superwhisper, dan Aqua, tetapi Handy berjalan secara lokal dan tidak ada biaya langganan
    Sangat direkomendasikan
  • Saya penasaran apakah ada yang pernah membandingkannya dengan OpenWhispr
    Dari deskripsinya terlihat mirip. Handy pertama kali dirilis pada Juni 2025, OpenWhispr menyusul sebulan kemudian
    Handy punya 11k bintang di GitHub, sedangkan OpenWhispr sekitar 730
    • Saya sudah mencoba keduanya, dan Handy jauh lebih sederhana karena bisa langsung diinstal sebagai aplikasi macOS
      Saat itu OpenWhispr belum punya model Parakeet dan UI-nya juga belum terlalu mulus
      Berkat UI minimalis Handy, penggunaannya terasa intuitif
      Fitur lanjutannya memang masih terbatas, tapi saya sudah memakainya dua bulan dan tidak berniat mencari aplikasi STT lain
  • Di MacBook M1 Air saya, Handy sangat cepat dan lebih akurat daripada STT bawaan macOS
    Pengaturannya juga cukup sederhana sehingga nyaman dipakai
    Saya sempat bertanya-tanya apa arti opsi “discharging the model”, dan tampaknya itu tidak berdampak pada RAM atau CPU
    • Itu adalah fungsi untuk menjaga model tetap berada di RAM agar bisa diakses dengan cepat
      Jika di-discharge, model akan dikeluarkan dari memori sehingga waktu mulai akan menjadi lebih lambat
  • Model Parakeet V3 benar-benar luar biasa