Handy – aplikasi pengenalan suara gratis dan open source

(github.com/cjpais)

2 poin oleh GN⁺ 2026-01-17 | 1 komentar | Bagikan ke WhatsApp

Handy adalah aplikasi desktop konversi suara-ke-teks gratis dan open source yang berjalan sepenuhnya offline, dengan desain yang berfokus pada privasi
Dibangun dengan Tauri (Rust + React/TypeScript), sehingga pengguna bisa menekan shortcut lalu berbicara, dan suara langsung dimasukkan ke kolom teks
Mendukung model Whisper dan Parakeet V3, serta melakukan pengenalan suara secara lokal dengan akselerasi GPU atau berbasis CPU
Berjalan di Windows, macOS, dan Linux, serta dikembangkan dengan struktur yang menekankan ekstensibilitas dan kemudahan fork untuk mendorong kontribusi developer
Sebagai alat input suara berfokus pada privasi yang diproses secara lokal tanpa pengiriman ke cloud, aplikasi ini menawarkan aksesibilitas dan kemungkinan kustomisasi yang tinggi

Ikhtisar

Handy adalah aplikasi pengenalan suara yang gratis, open source, dan dapat diperluas yang berjalan sepenuhnya offline tanpa koneksi internet
Dibangun di atas framework Tauri dengan kombinasi backend Rust dan frontend React/TypeScript
Pengguna menekan shortcut untuk berbicara, lalu saat dilepas, model Whisper atau Parakeet V3 mengubah suara menjadi teks dan menempelkannya ke aplikasi yang sedang aktif
Semua data suara diproses secara lokal sehingga tidak ada risiko kebocoran data pribadi

Filosofi Handy

Gratis: alat aksesibilitas harus bisa digunakan oleh semua orang
Open source: siapa pun bisa memperluas dan meningkatkan fiturnya
Menjaga privasi: data suara tidak dikirim ke cloud
Kesederhanaan: fokus pada satu tujuan, yaitu mengubah suara menjadi teks
Tujuannya bukan membuat aplikasi yang “paling sempurna”, melainkan aplikasi yang “paling mudah di-fork”

Cara kerja

Pengguna dapat memulai atau menghentikan perekaman dengan shortcut atau menggunakan mode push-to-talk
Silero VAD digunakan untuk memfilter bagian hening, lalu model Whisper atau Parakeet V3 mengubah suara menjadi teks
- Model Whisper: tersedia versi Small, Medium, Turbo, dan Large, dengan dukungan akselerasi GPU
- Parakeet V3: dioptimalkan untuk CPU, termasuk fitur deteksi bahasa otomatis
Teks hasil konversi otomatis dimasukkan ke kolom input aplikasi yang sedang digunakan
Mendukung Windows, macOS, Linux

Arsitektur

Frontend: React + TypeScript + Tailwind CSS
Backend: berbasis Rust, menangani pemrosesan audio dan inferensi machine learning
Library inti
- whisper-rs: pengenalan suara lokal untuk model Whisper
- transcription-rs: pengenalan berbasis CPU untuk model Parakeet
- cpal: input/output audio
- vad-rs: deteksi aktivitas suara
- rdev: shortcut global dan penanganan event sistem
- rubato: resampling audio
Mode debug: dapat diakses dengan Cmd+Shift+D (macOS) atau Ctrl+Shift+D (Windows/Linux)

Masalah yang diketahui dan batasan

Crash pada model Whisper: ada masalah crash pada beberapa lingkungan Windows/Linux
Dukungan Wayland terbatas: di lingkungan Linux Wayland, perlu memasang wtype atau dotool
Alat input teks
- X11: xdotool
- Wayland: wtype atau dotool
- Jika alat tidak terpasang, akan digantikan dengan enigo, tetapi kompatibilitasnya terbatas
Overlay Linux nonaktif secara default: dimatikan secara bawaan untuk mencegah konflik fokus

Kebutuhan sistem

Untuk model Whisper
- macOS: seri M atau Intel Mac
- Windows/Linux: GPU Intel, AMD, NVIDIA (Ubuntu 22.04/24.04 direkomendasikan)
Untuk model Parakeet V3
- CPU-only, direkomendasikan Intel Skylake (generasi ke-6) atau lebih baru
- Sekitar 5x lebih cepat dari realtime pada hardware kelas menengah
- Termasuk fitur deteksi bahasa otomatis

Roadmap pengembangan

Fitur yang sedang dikerjakan
- Menambahkan file log debug
- Peningkatan shortcut macOS (dukungan tombol Globe, penulisan ulang penanganan shortcut global)
- Fitur analitik opsional: pengumpulan data penggunaan anonim berbasis persetujuan eksplisit
- Refactoring sistem pengaturan dan peningkatan abstraksi
- Perapihan struktur perintah Tauri dan peningkatan type safety

Pemecahan masalah dan instalasi model manual

Di lingkungan dengan pembatasan jaringan, model dapat diunduh dan dipasang secara manual
Buat folder models di dalam direktori data aplikasi lalu tempatkan file model
- Model Whisper: salin langsung file .bin
- Model Parakeet: ekstrak file .tar.gz lalu pertahankan nama folder yang ditentukan
Setelah instalasi, model akan terdeteksi otomatis saat aplikasi dijalankan ulang

Cara berkontribusi

Periksa issue di GitHub lalu buat fork dan branch
Lakukan pengujian yang memadai di platform target sebelum mengirim Pull Request
Bisa ikut komunitas melalui email (contact@handy.computer) atau Discord
Tujuannya adalah menyediakan fondasi yang bisa dikembangkan komunitas melalui codebase yang sederhana dan terstruktur dengan baik

Proyek terkait dan lisensi

Handy CLI: versi command line berbasis Python
handy.computer: situs resmi dan demo
Didistribusikan dengan lisensi MIT
Berbasis pada proyek open source seperti Whisper (OpenAI), Silero, Tauri, dan lainnya

Kutipan

“Handy dapat mengakhiri pencarian Anda untuk alat pengenalan suara bukan karena sudah sempurna, tetapi karena Anda bisa membuatnya menjadi sempurna.”

1 komentar

GN⁺ 2026-01-17

Komentar Hacker News

Saya sudah mencoba berbagai aplikasi STT, tapi akhirnya menetap di VoiceInk (lokal, bayar sekali)
Jika dipakai bersama Parakeet V3, responsnya nyaris instan dan akurasinya juga sudah cukup baik
Saya sering memakai rutinitas berbicara ke agen CLI lalu meminta, “tolong beri tahu bagaimana kamu memahami ucapanku”
Dengan begitu, saya bisa memverifikasi pemahaman sekaligus menjadikannya semacam spesifikasi
Belakangan saya juga mencoba kombinasi Handy + Parakeet v3, dan hasilnya bekerja sangat baik, jadi saya berencana memakainya beberapa hari ke depan
Jika menekan Cmd‑Shift‑D untuk membuka UI “debug”, Anda juga bisa melihat opsi tambahan seperti post‑processing atau penambahan spasi
- Akan bagus kalau salah satu model seperti ini dioptimalkan khusus untuk pemrograman
  Saya ingin bisa mengucapkan perintah seperti “cd ~/projects” atau “git push --force”
Saya punya distonia (dystonia), jadi saat lengan saya kaku saya tidak bisa mengetik di keyboard
Karena itu, aplikasi TTS seperti SuperWhisper sangat membantu
Saya berharap Handy juga bisa memberikan pengalaman serupa
Namun, menurut saya agar bisa berkembang ke tahap berikutnya, aplikasi seperti ini perlu melampaui sekadar mengubah suara menjadi teks dan membutuhkan ekspansi berbasis konteks
Misalnya, jika kita mendiktekan kode di dalam IDE, hasilnya benar-benar menjadi kode
Pada akhirnya arahnya adalah menggabungkan TTS dengan penggunaan komputer
- Saya membuat tool CLI bernama ultraplan
  Tool ini merekam suara dengan Whisper lokal dan menyimpan screenshot, isi clipboard, dan lain-lain dalam bentuk timeline
  Setelah itu, agen seperti Claude Code membaca timeline tersebut dan melanjutkan pekerjaan
  Kontrol hands-free juga dimungkinkan, misalnya dengan mengucapkan “marco” untuk mengambil screenshot
  Kalau ada yang tertarik, saya bisa rapikan lalu unggah ke GitHub
- Saya setuju dengan pendapat Anda. Karena itulah saya merilis Handy sebagai open source
  Ada juga eksperimen untuk memahami konteks komputer dengan model lokal kecil (moondream, qwen, dll.)
  Dulu saat jari saya patah, saya pernah memetakan shortcut ke Handy untuk membuat kontrol konteks sederhana
- “Coding dengan suara” sudah banyak diteliti bahkan sebelum era LLM
  Misalnya ada contoh dari 2013 seperti Using Voice to Code Faster than Keyboard
  Untuk riset yang lebih baru, ada juga makalah ini
- Fitur yang Anda maksud sebenarnya sudah memungkinkan
  Jika output STT dimasukkan ke LLM, sistem bisa memahami niat lalu menghasilkan sekumpulan perintah
  Di CLI, cukup mudah mengubah perintah suara langsung menjadi perintah shell
  Di GUI, hal ini sedikit lebih rumit karena perlu mengetahui keadaan layar
  MacWhisper di macOS bisa mengirim teks hasil dikte ke endpoint yang kompatibel dengan OpenAI
Ini ulasan singkat saya setelah mencoba beberapa aplikasi transkripsi suara
Superwhisper berbayar, tapi punya opsi lisensi seumur hidup dan fiturnya banyak. Karena dikelola satu pengembang, kadang ada bug
Hex adalah opsi gratis yang paling ringan dan rapi
Fluid Voice punya fitur unik yang menampilkan teks secara real-time saat kita sedang berbicara
Handy punya UI merah muda yang lucu dan saya suka jendela riwayatnya. Pengaturan pemulihan clipboard-nya agak unik
Saat saya memasang dan mencopot beberapa aplikasi secara bergantian, sempat ada sedikit konflik
Berkat Nvidia yang merilis Parakeet sebagai open source, semuanya jadi sangat cepat
Saya lebih suka fitur streaming transkripsi real-time: meski kualitasnya lebih rendah, hasilnya langsung terlihat, lalu nanti diganti dengan versi berkualitas tinggi
Setelah mencari aplikasi STT selama beberapa minggu, saya menemukan Handy
Kebanyakan berbayar atau berbasis langganan, sampai saya sempat mempertimbangkan membuatnya sendiri, tapi Handy cepat, sederhana, dan tidak mengganggu
Ditambah lagi, aplikasinya terus diperbarui, jadi saya benar-benar puas
Fitur post‑processing juga terdengar menarik
Saya memakai Wispr Flow, dan agar saya mau beralih, saya butuh fitur kamus pengguna untuk kata-kata yang sering salah dikenali (nama perusahaan, nama orang, nama library, dll.)
- Sepertinya yang Anda maksud adalah fitur “Custom Words”. Saya sendiri belum sempat mengujinya dengan benar
- PR terkait kemungkinan akan segera di-merge, jadi Anda juga bisa membangun versi pratinjau dan mencobanya lebih awal
- Beberapa model menampilkan confidence per kata
  Menambahkan kata secara manual memang bagus, tapi jika kata-kata yang tidak pasti bisa ditandai, itu akan memudahkan perbaikan
Ada satu hal yang perlu diperhatikan
Shortcut bawaan adalah Ctrl+Space, dan transkripsi dimasukkan saat tombol dilepas
Jika pada saat itu Ctrl masih dalam keadaan ditekan, teks hasil transkripsi akan diproses sebagai karakter Ctrl
Lingkungan pengujiannya adalah Linux x64, X11, dan Emacs
Saya memakai Handy bersama Parakeet v3, dan hasilnya benar-benar luar biasa
Saya juga pernah mencoba Monologue, Superwhisper, dan Aqua, tetapi Handy berjalan secara lokal dan tidak ada biaya langganan
Sangat direkomendasikan
Saya penasaran apakah ada yang pernah membandingkannya dengan OpenWhispr
Dari deskripsinya terlihat mirip. Handy pertama kali dirilis pada Juni 2025, OpenWhispr menyusul sebulan kemudian
Handy punya 11k bintang di GitHub, sedangkan OpenWhispr sekitar 730
- Saya sudah mencoba keduanya, dan Handy jauh lebih sederhana karena bisa langsung diinstal sebagai aplikasi macOS
  Saat itu OpenWhispr belum punya model Parakeet dan UI-nya juga belum terlalu mulus
  Berkat UI minimalis Handy, penggunaannya terasa intuitif
  Fitur lanjutannya memang masih terbatas, tapi saya sudah memakainya dua bulan dan tidak berniat mencari aplikasi STT lain
Di MacBook M1 Air saya, Handy sangat cepat dan lebih akurat daripada STT bawaan macOS
Pengaturannya juga cukup sederhana sehingga nyaman dipakai
Saya sempat bertanya-tanya apa arti opsi “discharging the model”, dan tampaknya itu tidak berdampak pada RAM atau CPU
- Itu adalah fungsi untuk menjaga model tetap berada di RAM agar bisa diakses dengan cepat
  Jika di-discharge, model akan dikeluarkan dari memori sehingga waktu mulai akan menjadi lebih lambat
Model Parakeet V3 benar-benar luar biasa

Handy – aplikasi pengenalan suara gratis dan open source

Ikhtisar

Filosofi Handy

Cara kerja

Arsitektur

Masalah yang diketahui dan batasan

Kebutuhan sistem

Roadmap pengembangan

Pemecahan masalah dan instalasi model manual

Cara berkontribusi

Proyek terkait dan lisensi

Kutipan

Bacaan terkait

1 komentar

Komentar Hacker News