Whispering - aplikasi transkripsi suara open-source
(github.com/epicenter-so)- Whispering adalah alat transkripsi suara lokal-utama yang, setelah tombol pintas ditekan, menjalankan proses suara → teks lalu langsung menempelkan hasilnya ke clipboard
- Berbeda dari banyak alat sebelumnya yang merupakan layanan tertutup dan berbayar, Whispering menawarkan pemrosesan data yang transparan dan aksesibilitas open-source
- Pengguna dapat memilih antara metode lokal (Whisper C++, Speaches, dll.) atau cloud (Groq, OpenAI, ElevenLabs, dll.), serta mengatur fitur transformasi AI yang diinginkan
- Aplikasi ini ringan dengan ukuran 22MB dan berjalan cepat, serta mencakup fitur lanjutan seperti tombol pintas kustom, mode aktivasi suara, dan pemformatan teks otomatis
- Karena dapat mewujudkan kepemilikan data sekaligus penghematan biaya, ini merupakan proyek yang bermakna sebagai alternatif untuk SaaS transkripsi tertutup
Ikhtisar Whispering
- Whispering adalah aplikasi transkripsi suara gratis dan open-source; setelah menekan tombol pintas dan memasukkan suara, aplikasi ini mengubahnya menjadi teks lalu menyalinnya secara otomatis
- Data pribadi pada dasarnya disimpan secara lokal dan tidak dikirim ke luar
- Jika diinginkan, API eksternal seperti OpenAI, Groq, dan ElevenLabs dapat dihubungkan langsung
- Menjadikan transparansi dan jaminan kepemilikan data sebagai nilai inti
Fitur dan karakteristik utama
- Mendukung mode aktivasi suara (Voice Activity Detection, VAD)
- Saat pengguna berbicara, perekaman dimulai otomatis; saat berhenti, perekaman juga berakhir otomatis
- Fitur transformasi berbasis AI (Transformations)
- Dapat mengatur berbagai workflow AI seperti koreksi tata bahasa, terjemahan, ringkasan, dan penerapan format
- Dapat memilih berbagai penyedia LLM seperti OpenAI, Anthropic, Google Gemini, dan Groq
- Mendukung tombol pintas kustom untuk penyesuaian dengan lingkungan pengguna
- Struktur biaya rendah: menggunakan API key sendiri untuk membayar langsung ke penyedia
- Contoh: saat memakai model Groq, 0.02$/jam → sekitar 0.20$/bulan (100 kali lebih murah dibanding SaaS tradisional)
Instalasi dan penggunaan
- Menyediakan binary untuk macOS, Windows, Linux
- macOS: tersedia versi terpisah untuk Apple Silicon/Intel
- Windows: menyediakan opsi instalasi MSI/EXE
- Linux: mendukung AppImage, DEB, RPM
- Jika instalasi terasa merepotkan, tersedia juga versi aplikasi web (namun tidak mendukung tombol pintas global)
Cara pemrosesan data
- Semua rekaman dan hasil transkripsi disimpan di IndexedDB untuk dikelola secara lokal
- Jika memilih layanan transkripsi eksternal, hanya terjadi pemanggilan langsung melalui API key
- Tanpa server perantara, tanpa pengumpulan data
- Layanan transformasi juga hanya mengirimkan data ke penyedia LLM yang dipilih pengguna
- Workflow transformasi, prompt, dan nilai pengaturan disimpan secara lokal
Pembeda dan keunggulan
- Aplikasi transkripsi yang ada biasanya melewati server perantara dan mengenakan biaya 15~30 dolar per bulan
- Whispering memiliki struktur tanpa perantara, sehingga dapat terhubung langsung ke penyedia untuk menghemat biaya
- Jika memilih opsi lokal, tersedia penggunaan sepenuhnya offline, gratis, dan tanpa batas
Pengembangan dan arsitektur
- Dibangun dengan Svelte 5 + Tauri, sehingga mendukung desktop dan web sekaligus
- Ukuran sekitar 22MB, startup cepat, penggunaan resource minimal
- Codebase menggunakan arsitektur 3 lapis yang dibagi menjadi lapisan layanan, lapisan query, dan lapisan UI
- 97% code sharing antara versi web dan desktop
- Ekstensi browser (React + shadcn/ui) saat ini dihentikan sementara, dengan fokus pada stabilisasi aplikasi desktop
Kontribusi dan komunitas
- Siapa pun dapat meninjau source code, berkontribusi pada fitur, dan menambahkan adapter layanan transkripsi/AI baru
- Panduan pengembangan: mempertahankan pola TypeScript/Svelte, penanganan error berbasis pustaka WellCrafted
- Feedback pengguna dan kolaborasi dilakukan melalui komunitas Discord dan GitHub Issues
- Berdasarkan lisensi MIT, dapat di-fork, dimodifikasi, dan didistribusikan ulang secara bebas
Jawaban utama FAQ
- Apakah bisa digunakan offline: mode lokal Speaches mendukung penggunaan sepenuhnya offline
- Biaya nyata: saat memakai Groq, 0.2~3$/bulan; saat memakai OpenAI, 1.8~16.2$/bulan; lokal gratis
- Keamanan/privasi: rekaman disimpan lokal, pengiriman ke luar hanya dilakukan ke API penyedia yang dipilih langsung oleh pengguna
- Platform yang didukung: desktop macOS, Windows, Linux + browser web
2 komentar
Untuk mengimplementasikan fitur pengenalan suara di jaringan tertutup, saya membuat dan menggunakan web server ringan yang melakukan STT dengan whisper.
Mereka menjelaskannya seolah semuanya bisa berjalan offline, tetapi selain fitur transkripsi, hal-hal seperti transformasi tetap harus bergantung pada cloud, jadi saya merasa perbedaan dan keunggulannya jadi kurang bermakna.
Komentar Hacker News