- Handy adalah aplikasi desktop konversi suara-ke-teks gratis dan open source yang berjalan sepenuhnya offline, dengan desain yang berfokus pada privasi
- Dibangun dengan Tauri (Rust + React/TypeScript), sehingga pengguna bisa menekan shortcut lalu berbicara, dan suara langsung dimasukkan ke kolom teks
- Mendukung model Whisper dan Parakeet V3, serta melakukan pengenalan suara secara lokal dengan akselerasi GPU atau berbasis CPU
- Berjalan di Windows, macOS, dan Linux, serta dikembangkan dengan struktur yang menekankan ekstensibilitas dan kemudahan fork untuk mendorong kontribusi developer
- Sebagai alat input suara berfokus pada privasi yang diproses secara lokal tanpa pengiriman ke cloud, aplikasi ini menawarkan aksesibilitas dan kemungkinan kustomisasi yang tinggi
Ikhtisar
- Handy adalah aplikasi pengenalan suara yang gratis, open source, dan dapat diperluas yang berjalan sepenuhnya offline tanpa koneksi internet
- Dibangun di atas framework Tauri dengan kombinasi backend Rust dan frontend React/TypeScript
- Pengguna menekan shortcut untuk berbicara, lalu saat dilepas, model Whisper atau Parakeet V3 mengubah suara menjadi teks dan menempelkannya ke aplikasi yang sedang aktif
- Semua data suara diproses secara lokal sehingga tidak ada risiko kebocoran data pribadi
Filosofi Handy
- Gratis: alat aksesibilitas harus bisa digunakan oleh semua orang
- Open source: siapa pun bisa memperluas dan meningkatkan fiturnya
- Menjaga privasi: data suara tidak dikirim ke cloud
- Kesederhanaan: fokus pada satu tujuan, yaitu mengubah suara menjadi teks
- Tujuannya bukan membuat aplikasi yang “paling sempurna”, melainkan aplikasi yang “paling mudah di-fork”
Cara kerja
- Pengguna dapat memulai atau menghentikan perekaman dengan shortcut atau menggunakan mode push-to-talk
- Silero VAD digunakan untuk memfilter bagian hening, lalu model Whisper atau Parakeet V3 mengubah suara menjadi teks
- Model Whisper: tersedia versi Small, Medium, Turbo, dan Large, dengan dukungan akselerasi GPU
- Parakeet V3: dioptimalkan untuk CPU, termasuk fitur deteksi bahasa otomatis
- Teks hasil konversi otomatis dimasukkan ke kolom input aplikasi yang sedang digunakan
- Mendukung Windows, macOS, Linux
Arsitektur
- Frontend: React + TypeScript + Tailwind CSS
- Backend: berbasis Rust, menangani pemrosesan audio dan inferensi machine learning
- Library inti
whisper-rs: pengenalan suara lokal untuk model Whisper
transcription-rs: pengenalan berbasis CPU untuk model Parakeet
cpal: input/output audio
vad-rs: deteksi aktivitas suara
rdev: shortcut global dan penanganan event sistem
rubato: resampling audio
- Mode debug: dapat diakses dengan
Cmd+Shift+D (macOS) atau Ctrl+Shift+D (Windows/Linux)
Masalah yang diketahui dan batasan
- Crash pada model Whisper: ada masalah crash pada beberapa lingkungan Windows/Linux
- Dukungan Wayland terbatas: di lingkungan Linux Wayland, perlu memasang
wtype atau dotool
- Alat input teks
- X11:
xdotool
- Wayland:
wtype atau dotool
- Jika alat tidak terpasang, akan digantikan dengan
enigo, tetapi kompatibilitasnya terbatas
- Overlay Linux nonaktif secara default: dimatikan secara bawaan untuk mencegah konflik fokus
Kebutuhan sistem
- Untuk model Whisper
- macOS: seri M atau Intel Mac
- Windows/Linux: GPU Intel, AMD, NVIDIA (Ubuntu 22.04/24.04 direkomendasikan)
- Untuk model Parakeet V3
- CPU-only, direkomendasikan Intel Skylake (generasi ke-6) atau lebih baru
- Sekitar 5x lebih cepat dari realtime pada hardware kelas menengah
- Termasuk fitur deteksi bahasa otomatis
Roadmap pengembangan
- Fitur yang sedang dikerjakan
- Menambahkan file log debug
- Peningkatan shortcut macOS (dukungan tombol Globe, penulisan ulang penanganan shortcut global)
- Fitur analitik opsional: pengumpulan data penggunaan anonim berbasis persetujuan eksplisit
- Refactoring sistem pengaturan dan peningkatan abstraksi
- Perapihan struktur perintah Tauri dan peningkatan type safety
Pemecahan masalah dan instalasi model manual
- Di lingkungan dengan pembatasan jaringan, model dapat diunduh dan dipasang secara manual
- Buat folder
models di dalam direktori data aplikasi lalu tempatkan file model
- Model Whisper: salin langsung file
.bin
- Model Parakeet: ekstrak file
.tar.gz lalu pertahankan nama folder yang ditentukan
- Setelah instalasi, model akan terdeteksi otomatis saat aplikasi dijalankan ulang
Cara berkontribusi
- Periksa issue di GitHub lalu buat fork dan branch
- Lakukan pengujian yang memadai di platform target sebelum mengirim Pull Request
- Bisa ikut komunitas melalui email (contact@handy.computer) atau Discord
- Tujuannya adalah menyediakan fondasi yang bisa dikembangkan komunitas melalui codebase yang sederhana dan terstruktur dengan baik
Proyek terkait dan lisensi
- Handy CLI: versi command line berbasis Python
- handy.computer: situs resmi dan demo
- Didistribusikan dengan lisensi MIT
- Berbasis pada proyek open source seperti Whisper (OpenAI), Silero, Tauri, dan lainnya
Kutipan
- “Handy dapat mengakhiri pencarian Anda untuk alat pengenalan suara bukan karena sudah sempurna, tetapi karena Anda bisa membuatnya menjadi sempurna.”
1 komentar
Komentar Hacker News
Jika dipakai bersama Parakeet V3, responsnya nyaris instan dan akurasinya juga sudah cukup baik
Saya sering memakai rutinitas berbicara ke agen CLI lalu meminta, “tolong beri tahu bagaimana kamu memahami ucapanku”
Dengan begitu, saya bisa memverifikasi pemahaman sekaligus menjadikannya semacam spesifikasi
Belakangan saya juga mencoba kombinasi Handy + Parakeet v3, dan hasilnya bekerja sangat baik, jadi saya berencana memakainya beberapa hari ke depan
Jika menekan Cmd‑Shift‑D untuk membuka UI “debug”, Anda juga bisa melihat opsi tambahan seperti post‑processing atau penambahan spasi
Saya ingin bisa mengucapkan perintah seperti “cd ~/projects” atau “git push --force”
Karena itu, aplikasi TTS seperti SuperWhisper sangat membantu
Saya berharap Handy juga bisa memberikan pengalaman serupa
Namun, menurut saya agar bisa berkembang ke tahap berikutnya, aplikasi seperti ini perlu melampaui sekadar mengubah suara menjadi teks dan membutuhkan ekspansi berbasis konteks
Misalnya, jika kita mendiktekan kode di dalam IDE, hasilnya benar-benar menjadi kode
Pada akhirnya arahnya adalah menggabungkan TTS dengan penggunaan komputer
ultraplanTool ini merekam suara dengan Whisper lokal dan menyimpan screenshot, isi clipboard, dan lain-lain dalam bentuk timeline
Setelah itu, agen seperti Claude Code membaca timeline tersebut dan melanjutkan pekerjaan
Kontrol hands-free juga dimungkinkan, misalnya dengan mengucapkan “marco” untuk mengambil screenshot
Kalau ada yang tertarik, saya bisa rapikan lalu unggah ke GitHub
Ada juga eksperimen untuk memahami konteks komputer dengan model lokal kecil (moondream, qwen, dll.)
Dulu saat jari saya patah, saya pernah memetakan shortcut ke Handy untuk membuat kontrol konteks sederhana
Misalnya ada contoh dari 2013 seperti Using Voice to Code Faster than Keyboard
Untuk riset yang lebih baru, ada juga makalah ini
Jika output STT dimasukkan ke LLM, sistem bisa memahami niat lalu menghasilkan sekumpulan perintah
Di CLI, cukup mudah mengubah perintah suara langsung menjadi perintah shell
Di GUI, hal ini sedikit lebih rumit karena perlu mengetahui keadaan layar
MacWhisper di macOS bisa mengirim teks hasil dikte ke endpoint yang kompatibel dengan OpenAI
Superwhisper berbayar, tapi punya opsi lisensi seumur hidup dan fiturnya banyak. Karena dikelola satu pengembang, kadang ada bug
Hex adalah opsi gratis yang paling ringan dan rapi
Fluid Voice punya fitur unik yang menampilkan teks secara real-time saat kita sedang berbicara
Handy punya UI merah muda yang lucu dan saya suka jendela riwayatnya. Pengaturan pemulihan clipboard-nya agak unik
Saat saya memasang dan mencopot beberapa aplikasi secara bergantian, sempat ada sedikit konflik
Berkat Nvidia yang merilis Parakeet sebagai open source, semuanya jadi sangat cepat
Saya lebih suka fitur streaming transkripsi real-time: meski kualitasnya lebih rendah, hasilnya langsung terlihat, lalu nanti diganti dengan versi berkualitas tinggi
Kebanyakan berbayar atau berbasis langganan, sampai saya sempat mempertimbangkan membuatnya sendiri, tapi Handy cepat, sederhana, dan tidak mengganggu
Ditambah lagi, aplikasinya terus diperbarui, jadi saya benar-benar puas
Fitur post‑processing juga terdengar menarik
Menambahkan kata secara manual memang bagus, tapi jika kata-kata yang tidak pasti bisa ditandai, itu akan memudahkan perbaikan
Shortcut bawaan adalah Ctrl+Space, dan transkripsi dimasukkan saat tombol dilepas
Jika pada saat itu Ctrl masih dalam keadaan ditekan, teks hasil transkripsi akan diproses sebagai karakter Ctrl
Lingkungan pengujiannya adalah Linux x64, X11, dan Emacs
Saya juga pernah mencoba Monologue, Superwhisper, dan Aqua, tetapi Handy berjalan secara lokal dan tidak ada biaya langganan
Sangat direkomendasikan
Dari deskripsinya terlihat mirip. Handy pertama kali dirilis pada Juni 2025, OpenWhispr menyusul sebulan kemudian
Handy punya 11k bintang di GitHub, sedangkan OpenWhispr sekitar 730
Saat itu OpenWhispr belum punya model Parakeet dan UI-nya juga belum terlalu mulus
Berkat UI minimalis Handy, penggunaannya terasa intuitif
Fitur lanjutannya memang masih terbatas, tapi saya sudah memakainya dua bulan dan tidak berniat mencari aplikasi STT lain
Pengaturannya juga cukup sederhana sehingga nyaman dipakai
Saya sempat bertanya-tanya apa arti opsi “discharging the model”, dan tampaknya itu tidak berdampak pada RAM atau CPU
Jika di-discharge, model akan dikeluarkan dari memori sehingga waktu mulai akan menjadi lebih lambat