21 poin oleh GN⁺ 2025-08-19 | Belum ada komentar. | Bagikan ke WhatsApp
  • Whispering adalah alat transkripsi suara lokal-utama yang, setelah tombol pintas ditekan, menjalankan proses suara → teks lalu langsung menempelkan hasilnya ke clipboard
  • Berbeda dari banyak alat sebelumnya yang merupakan layanan tertutup dan berbayar, Whispering menawarkan pemrosesan data yang transparan dan aksesibilitas open-source
  • Pengguna dapat memilih antara metode lokal (Whisper C++, Speaches, dll.) atau cloud (Groq, OpenAI, ElevenLabs, dll.), serta mengatur fitur transformasi AI yang diinginkan
  • Aplikasi ini ringan dengan ukuran 22MB dan berjalan cepat, serta mencakup fitur lanjutan seperti tombol pintas kustom, mode aktivasi suara, dan pemformatan teks otomatis
  • Karena dapat mewujudkan kepemilikan data sekaligus penghematan biaya, ini merupakan proyek yang bermakna sebagai alternatif untuk SaaS transkripsi tertutup

Ikhtisar Whispering

  • Whispering adalah aplikasi transkripsi suara gratis dan open-source; setelah menekan tombol pintas dan memasukkan suara, aplikasi ini mengubahnya menjadi teks lalu menyalinnya secara otomatis
    • Data pribadi pada dasarnya disimpan secara lokal dan tidak dikirim ke luar
    • Jika diinginkan, API eksternal seperti OpenAI, Groq, dan ElevenLabs dapat dihubungkan langsung
  • Menjadikan transparansi dan jaminan kepemilikan data sebagai nilai inti

Fitur dan karakteristik utama

  • Mendukung mode aktivasi suara (Voice Activity Detection, VAD)
    • Saat pengguna berbicara, perekaman dimulai otomatis; saat berhenti, perekaman juga berakhir otomatis
  • Fitur transformasi berbasis AI (Transformations)
    • Dapat mengatur berbagai workflow AI seperti koreksi tata bahasa, terjemahan, ringkasan, dan penerapan format
    • Dapat memilih berbagai penyedia LLM seperti OpenAI, Anthropic, Google Gemini, dan Groq
  • Mendukung tombol pintas kustom untuk penyesuaian dengan lingkungan pengguna
  • Struktur biaya rendah: menggunakan API key sendiri untuk membayar langsung ke penyedia
    • Contoh: saat memakai model Groq, 0.02$/jam → sekitar 0.20$/bulan (100 kali lebih murah dibanding SaaS tradisional)

Instalasi dan penggunaan

  • Menyediakan binary untuk macOS, Windows, Linux
    • macOS: tersedia versi terpisah untuk Apple Silicon/Intel
    • Windows: menyediakan opsi instalasi MSI/EXE
    • Linux: mendukung AppImage, DEB, RPM
  • Jika instalasi terasa merepotkan, tersedia juga versi aplikasi web (namun tidak mendukung tombol pintas global)

Cara pemrosesan data

  • Semua rekaman dan hasil transkripsi disimpan di IndexedDB untuk dikelola secara lokal
  • Jika memilih layanan transkripsi eksternal, hanya terjadi pemanggilan langsung melalui API key
    • Tanpa server perantara, tanpa pengumpulan data
  • Layanan transformasi juga hanya mengirimkan data ke penyedia LLM yang dipilih pengguna
    • Workflow transformasi, prompt, dan nilai pengaturan disimpan secara lokal

Pembeda dan keunggulan

  • Aplikasi transkripsi yang ada biasanya melewati server perantara dan mengenakan biaya 15~30 dolar per bulan
  • Whispering memiliki struktur tanpa perantara, sehingga dapat terhubung langsung ke penyedia untuk menghemat biaya
  • Jika memilih opsi lokal, tersedia penggunaan sepenuhnya offline, gratis, dan tanpa batas

Pengembangan dan arsitektur

  • Dibangun dengan Svelte 5 + Tauri, sehingga mendukung desktop dan web sekaligus
    • Ukuran sekitar 22MB, startup cepat, penggunaan resource minimal
  • Codebase menggunakan arsitektur 3 lapis yang dibagi menjadi lapisan layanan, lapisan query, dan lapisan UI
    • 97% code sharing antara versi web dan desktop
  • Ekstensi browser (React + shadcn/ui) saat ini dihentikan sementara, dengan fokus pada stabilisasi aplikasi desktop

Kontribusi dan komunitas

  • Siapa pun dapat meninjau source code, berkontribusi pada fitur, dan menambahkan adapter layanan transkripsi/AI baru
  • Panduan pengembangan: mempertahankan pola TypeScript/Svelte, penanganan error berbasis pustaka WellCrafted
  • Feedback pengguna dan kolaborasi dilakukan melalui komunitas Discord dan GitHub Issues
  • Berdasarkan lisensi MIT, dapat di-fork, dimodifikasi, dan didistribusikan ulang secara bebas

Jawaban utama FAQ

  • Apakah bisa digunakan offline: mode lokal Speaches mendukung penggunaan sepenuhnya offline
  • Biaya nyata: saat memakai Groq, 0.2~3$/bulan; saat memakai OpenAI, 1.8~16.2$/bulan; lokal gratis
  • Keamanan/privasi: rekaman disimpan lokal, pengiriman ke luar hanya dilakukan ke API penyedia yang dipilih langsung oleh pengguna
  • Platform yang didukung: desktop macOS, Windows, Linux + browser web

Belum ada komentar.

Belum ada komentar.