Whispering - aplikasi transkripsi suara open-source

(github.com/epicenter-so)

21 poin oleh GN⁺ 2025-08-19 | 2 komentar | Bagikan ke WhatsApp

Whispering adalah alat transkripsi suara lokal-utama yang, setelah tombol pintas ditekan, menjalankan proses suara → teks lalu langsung menempelkan hasilnya ke clipboard
Berbeda dari banyak alat sebelumnya yang merupakan layanan tertutup dan berbayar, Whispering menawarkan pemrosesan data yang transparan dan aksesibilitas open-source
Pengguna dapat memilih antara metode lokal (Whisper C++, Speaches, dll.) atau cloud (Groq, OpenAI, ElevenLabs, dll.), serta mengatur fitur transformasi AI yang diinginkan
Aplikasi ini ringan dengan ukuran 22MB dan berjalan cepat, serta mencakup fitur lanjutan seperti tombol pintas kustom, mode aktivasi suara, dan pemformatan teks otomatis
Karena dapat mewujudkan kepemilikan data sekaligus penghematan biaya, ini merupakan proyek yang bermakna sebagai alternatif untuk SaaS transkripsi tertutup

Ikhtisar Whispering

Whispering adalah aplikasi transkripsi suara gratis dan open-source; setelah menekan tombol pintas dan memasukkan suara, aplikasi ini mengubahnya menjadi teks lalu menyalinnya secara otomatis
- Data pribadi pada dasarnya disimpan secara lokal dan tidak dikirim ke luar
- Jika diinginkan, API eksternal seperti OpenAI, Groq, dan ElevenLabs dapat dihubungkan langsung
Menjadikan transparansi dan jaminan kepemilikan data sebagai nilai inti

Fitur dan karakteristik utama

Mendukung mode aktivasi suara (Voice Activity Detection, VAD)
- Saat pengguna berbicara, perekaman dimulai otomatis; saat berhenti, perekaman juga berakhir otomatis
Fitur transformasi berbasis AI (Transformations)
- Dapat mengatur berbagai workflow AI seperti koreksi tata bahasa, terjemahan, ringkasan, dan penerapan format
- Dapat memilih berbagai penyedia LLM seperti OpenAI, Anthropic, Google Gemini, dan Groq
Mendukung tombol pintas kustom untuk penyesuaian dengan lingkungan pengguna
Struktur biaya rendah: menggunakan API key sendiri untuk membayar langsung ke penyedia
- Contoh: saat memakai model Groq, 0.02$/jam → sekitar 0.20$/bulan (100 kali lebih murah dibanding SaaS tradisional)

Instalasi dan penggunaan

Menyediakan binary untuk macOS, Windows, Linux
- macOS: tersedia versi terpisah untuk Apple Silicon/Intel
- Windows: menyediakan opsi instalasi MSI/EXE
- Linux: mendukung AppImage, DEB, RPM
Jika instalasi terasa merepotkan, tersedia juga versi aplikasi web (namun tidak mendukung tombol pintas global)

Cara pemrosesan data

Semua rekaman dan hasil transkripsi disimpan di IndexedDB untuk dikelola secara lokal
Jika memilih layanan transkripsi eksternal, hanya terjadi pemanggilan langsung melalui API key
- Tanpa server perantara, tanpa pengumpulan data
Layanan transformasi juga hanya mengirimkan data ke penyedia LLM yang dipilih pengguna
- Workflow transformasi, prompt, dan nilai pengaturan disimpan secara lokal

Pembeda dan keunggulan

Aplikasi transkripsi yang ada biasanya melewati server perantara dan mengenakan biaya 15~30 dolar per bulan
Whispering memiliki struktur tanpa perantara, sehingga dapat terhubung langsung ke penyedia untuk menghemat biaya
Jika memilih opsi lokal, tersedia penggunaan sepenuhnya offline, gratis, dan tanpa batas

Pengembangan dan arsitektur

Dibangun dengan Svelte 5 + Tauri, sehingga mendukung desktop dan web sekaligus
- Ukuran sekitar 22MB, startup cepat, penggunaan resource minimal
Codebase menggunakan arsitektur 3 lapis yang dibagi menjadi lapisan layanan, lapisan query, dan lapisan UI
- 97% code sharing antara versi web dan desktop
Ekstensi browser (React + shadcn/ui) saat ini dihentikan sementara, dengan fokus pada stabilisasi aplikasi desktop

Kontribusi dan komunitas

Siapa pun dapat meninjau source code, berkontribusi pada fitur, dan menambahkan adapter layanan transkripsi/AI baru
Panduan pengembangan: mempertahankan pola TypeScript/Svelte, penanganan error berbasis pustaka WellCrafted
Feedback pengguna dan kolaborasi dilakukan melalui komunitas Discord dan GitHub Issues
Berdasarkan lisensi MIT, dapat di-fork, dimodifikasi, dan didistribusikan ulang secara bebas

Jawaban utama FAQ

Apakah bisa digunakan offline: mode lokal Speaches mendukung penggunaan sepenuhnya offline
Biaya nyata: saat memakai Groq, 0.2~3$/bulan; saat memakai OpenAI, 1.8~16.2$/bulan; lokal gratis
Keamanan/privasi: rekaman disimpan lokal, pengiriman ke luar hanya dilakukan ke API penyedia yang dipilih langsung oleh pengguna
Platform yang didukung: desktop macOS, Windows, Linux + browser web

2 komentar

wedding 2025-08-21

Untuk mengimplementasikan fitur pengenalan suara di jaringan tertutup, saya membuat dan menggunakan web server ringan yang melakukan STT dengan whisper.
Mereka menjelaskannya seolah semuanya bisa berjalan offline, tetapi selain fitur transkripsi, hal-hal seperti transformasi tetap harus bergantung pada cloud, jadi saya merasa perbedaan dan keunggulannya jadi kurang bermakna.

GN⁺ 2025-08-19

Komentar Hacker News

Penasaran apakah model Parakeet bisa dipakai secara lokal; saya memakai MacWhisper, dan sangat puas karena Parakeet jauh lebih cepat dan akurat daripada Whisper untuk transkripsi di perangkat, jadi saya sudah lama memakai kombinasi MacWhisper + Parakeet untuk push-to-transcribe; rasanya benar-benar seperti sihir
- Memang belum didukung, tapi itu juga fitur yang sangat saya harapkan. Saya melihat Parakeet mencetak hasil luar biasa di leaderboard, dan saat ini rencananya adalah menstabilkan integrasi whisper.cpp dulu lalu menambahkan dukungan Parakeet. Kalau ada yang membuat konektornya lewat PR, saya siap merge secepatnya
- Parakeet benar-benar mengejutkan: di GPU A100 kecepatannya 3000x real-time, dan di CPU laptop pun 5x real-time. Akurasinya juga lebih baik daripada whisper-large-v3. Lihat leaderboard ASR Hugging Face. Hanya saja framework NeMo bisa agak merepotkan. Fakta bahwa ini bisa berjalan lokal di Mac (via MacWhisper) sangat mengesankan
Info untuk yang mengecek repo pagi ini: saya sedang menyiapkan rilis yang menambahkan dukungan whisper C++. Lihat tautan progress PR. Setelah ini dirilis, dukungan transkripsi lokal akan jadi jauh lebih kuat. Tinggal beberapa perbaikan kecil lagi
Saya berharap ada aplikasi local-first berbasis open source untuk semua jenis kebutuhan, dan masing-masing bisa saling terhubung dengan baik. Ide Epicenter adalah menyimpan semua data ke folder dalam bentuk teks dan SQLite agar transparan dan bisa dipercaya. Di atasnya dibangun alat-alat local-first yang interoperabel. Saya sangat suka transparansi seperti ini karena terasa bisa dipercaya. Saya hampir tidak punya pengalaman dengan TTS, tapi saat nanti mendalami area ini, berkat Epicenter saya kemungkinan akan mulai dari Whispering. Saya sudah memberi repo ini bintang, dan juga ingin memikirkan ide aplikasi yang bisa saya kontribusikan. Selamat lolos YC, dan terima kasih
- Terima kasih banyak atas dukungannya; umpan balik seperti ini sangat berharga. Senang bisa berinteraksi dengan orang yang juga menghargai open source dan kepemilikan data sendiri. Selama periode YC, saya akan berusaha keras mendukung lebih banyak developer OSS. Semoga kita bisa terus berkomunikasi
- Sepertinya yang dibahas di sini bukan TTS (text-to-speech), melainkan STT (speech-to-text)
- Kalau nanti Anda juga ingin versi cloud, Anda bisa memakai AgentDB API untuk mengunggah hanya data tersebut, lalu menjalankan query-nya di cloud
Terima kasih sudah membagikan produk keren ini. Minggu lalu saya juga membuat aplikasi serupa yang berjalan lokal karena produk komersial terasa lambat. Fungsinya merekam dan mentranskripsikan semua audio ke aplikasi dengan satu tombol. Saya juga membuat mode kedua yang otomatis menerjemahkan ke bahasa Inggris saat kita berbicara dalam bahasa ibu. Saya bahkan berhasil mempertahankan format seperti koma dan tanda kutip dengan baik. Agak mengejutkan hal seperti ini masih belum ada di aplikasi dikte bawaan MacOS
- Terima kasih banyak atas dukungannya; senang mendengar ini juga membantu untuk penerjemahan. Memang aneh fitur dikte bawaan MacOS belum berkembang sejauh ini. OSS sedang mengisi kekosongan itu
Apakah fitur ini juga ada di iOS? Saya ingin aplikasi keyboard iOS kustom yang membungkus Parakeet atau Whisper, sehingga saya bisa pindah ke keyboard dikte, menekan tombol, lalu langsung memasukkan hasil transkripsi ke aplikasi apa pun, termasuk aplikasi pihak ketiga. Di MacOS, MacWhisper benar-benar luar biasa, tapi di iOS belum ada fitur yang setara. Dikte bawaan iOS memang lumayan, tapi untuk istilah teknis atau singkatan, Whisper cpp jauh lebih baik mengenalinya
- superwhisper menyediakan fitur itu
Saya tertarik pada fitur dikte yang memproses audio secara lokal. Saya tidak suka audio dikirim ke API jarak jauh; semuanya harus berjalan sepenuhnya lokal tanpa eksposur. Saya sudah mencoba beberapa hal, termasuk model yang dipakai FUTO Keyboard, tapi rasanya masih kurang. Terutama dalam menangani noise, filler seperti "hmm..." atau "eh...", dan koreksi di tengah ucapan. Saya berharap ada model terbuka yang bisa menangani hal-hal seperti itu dengan baik. Saya belum bisa menilai apakah ini masalah aplikasi atau keterbatasan model, tapi saya penasaran apakah ada model baru yang relevan. Sampai saat itu, sepertinya saya tetap harus mengetik catatan secara manual meski kurang nyaman
- Sudah coba Whisper sendiri? Saya merekomendasikannya. Bobotnya terbuka sehingga bisa digunakan, dan salah satu fitur Epicenter yang diperkenalkan di atas adalah "transformasi transkripsi". Teksnya bisa dimasukkan ke LLM agar dirapikan lebih baik. Kalau biaya token bukan masalah, bukan hanya filler yang bisa dihapus, tetapi kalimat pun bisa dikoreksi otomatis berdasarkan satuan makna
Di bidang ini saya makin menyukai konsep pendekatan local-first yang dipadukan dengan alat backup milik sendiri. Baru-baru ini hyprnote populer di Hacker News; dibuat dengan sangat baik, local-first, dan tetap bisa dipakai bersama alat pilihan kita
- Saya juga benar-benar penggemar Hyprnote. Kedua produk ini sedikit berbeda, tetapi ada banyak tumpang tindih di tech stack dan misinya juga sangat mirip
Saya sudah memakai whispering selama lebih dari satu tahun, dan cara saya berinteraksi dengan komputer benar-benar berubah. Saya sangat menyarankan membeli mouse dan keyboard dengan tombol yang bisa diprogram lalu memasang shortcut whispering di sana. Sekarang input lewat pengetikan biasa terasa begitu tidak efisien sampai saya rasanya tidak bisa kembali lagi
- Terima kasih banyak atas dukungannya; umpan balik seperti ini sangat menyemangati. Kalau nanti ada masalah lagi, jangan ragu untuk menghubungi kapan saja
Saya penasaran apakah teknologi ini bekerja baik untuk suara anak-anak. Ada banyak kebutuhan untuk model lokal yang menjaga privasi dalam aplikasi pendidikan. Tapi setahu saya, Whisper saat ini kurang bagus mengenali suara anak usia kecil
- Betul, Whisper memang cenderung lemah untuk suara anak-anak. Saya belum menguji Parakeet atau model lain untuk kasus itu, tetapi ini contoh yang bagus karena privasi sangat penting dalam penggunaan pendidikan. Saya juga ingin merekomendasikan Hyprnote; belakangan mereka sedang memperluas model seperti OWhisper. Lihat pengantar Hyprnote dan penjelasan OWhisper
Saya terobsesi dengan perangkat lunak open source local-first. Menurut saya semua orang seharusnya begitu
- Sangat setuju