Ghost Pepper – aplikasi transkripsi suara-ke-teks lokal untuk macOS
(github.com/matthartman)- Aplikasi pengenalan suara lokal di macOS yang secara otomatis mengubah ucapan menjadi teks lalu menempelkannya saat Anda menekan tombol Control dan berbicara
- Semua proses pengenalan suara dan perapian teks dilakukan sepenuhnya secara lokal, sehingga privasi tetap terlindungi tanpa pengiriman ke cloud
- Dibangun di atas WhisperKit dan LLM.swift, dengan model Hugging Face yang diunduh otomatis lalu disimpan dalam cache
- Dengan fitur perapian pintar, aplikasi ini menghapus kata-kata tidak perlu dan memperbaiki ekspresi koreksi diri, serta berjalan di latar belakang sebagai aplikasi menu bar
- Dirilis sebagai open source berlisensi MIT, dan berjalan di Apple Silicon macOS 14 atau lebih baru
Ikhtisar
- Ghost Pepper adalah aplikasi transkripsi suara-ke-teks sepenuhnya lokal untuk macOS, yang menyediakan fungsi menekan tombol Control, berbicara, lalu melepasnya untuk otomatis mengubah ucapan menjadi teks dan menempelkannya
- Tidak menggunakan API cloud, dan semua data serta model diproses hanya secara lokal
- Berjalan di macOS 14.0 atau lebih baru berbasis Apple Silicon (M1 atau lebih baru)
- Berjalan sebagai aplikasi menu bar, dan dapat diatur untuk otomatis berjalan saat login
- Proyek open source yang dirilis dengan lisensi MIT
Fitur utama
- Tekan tombol Control lalu bicara → saat tombol dilepas, otomatis melakukan transkripsi teks dan menempelkannya
- Dengan arsitektur berjalan lokal, pengenalan suara dan model pascaproses semuanya berjalan di dalam Mac
- Dengan fitur perapian pintar, aplikasi ini menghapus ucapan yang tidak perlu (uh, um, dan sejenisnya) dan secara otomatis memperbaiki ekspresi koreksi diri
- Antarmuka khusus menu bar yang bekerja di latar belakang tanpa ikon Dock
- Mendukung pengaturan pengguna: dapat mengubah prompt perapian, memilih mikrofon, dan menyalakan/mematikan fitur
Cara kerja
- Semua model berbasis open source, dan saat pertama kali dijalankan akan diunduh otomatis lalu disimpan dalam cache lokal
- Pengenalan suara dilakukan melalui WhisperKit, dan perapian teks melalui LLM.swift
- File model disediakan melalui Hugging Face
-
Model pengenalan suara
- Whisper tiny.en (~75MB): model bahasa Inggris saja yang paling cepat
- Whisper small.en (~466MB): default, model bahasa Inggris saja dengan akurasi tinggi
- Whisper small (multilingual): mendukung banyak bahasa
- Parakeet v3 (~1.4GB): mendukung 25 bahasa, berbasis FluidAudio
-
Model perapian teks
- Qwen 3.5 0.8B (~535MB): default, diproses dalam sekitar 1–2 detik
- Qwen 3.5 2B (~1.3GB): kecepatan pemrosesan cepat (sekitar 4–5 detik)
- Qwen 3.5 4B (~2.8GB): kualitas terbaik (sekitar 5–7 detik)
Instalasi dan menjalankan aplikasi
-
Instalasi aplikasi
- Unduh GhostPepper.dmg
- Buka DMG lalu seret ke folder Applications
- Izinkan akses mikrofon dan Aksesibilitas
- Mulai gunakan dengan menekan tombol Control lalu berbicara
-
Build dari source
- Clone repositori
- Buka
GhostPepper.xcodeprojdi Xcode - Build dan jalankan dengan Cmd+R
Izin yang diperlukan
| Izin | Tujuan |
|---|---|
| Microphone | Merekam suara |
| Accessibility | Menjalankan hotkey global dan penempelan otomatis |
Informasi tambahan
- Berjalan otomatis saat login aktif secara default, dan dapat dinonaktifkan di pengaturan
- Tidak menyimpan log ke disk — teks hasil transkripsi tidak dicatat ke file, dan log debug hanya disimpan di memori lalu dihapus saat aplikasi ditutup
Susunan teknis dan dependensi
- WhisperKit: mesin pengenalan suara
- LLM.swift: LLM lokal untuk perapian teks
- Hugging Face: hosting model
- Sparkle: pengelolaan pembaruan aplikasi macOS
Arti nama
- Semua model berjalan hanya secara lokal sehingga data pribadi tidak dikirim ke luar
- Nama Ghost Pepper melambangkan fitur kuat yang tersedia secara gratis
Dukungan untuk perusahaan dan perangkat terkelola
- Aplikasi memerlukan izin Accessibility, yang umumnya membutuhkan hak admin
- Di lingkungan MDM (Jamf, Kandji, Mosaic, dll.), persetujuan awal dapat diberikan melalui profil PPPC (Privacy Preferences Policy Control)
- Bundle ID:
com.github.matthartman.ghostpepper - Team ID:
BBVMGXR9AY - Permission: Accessibility (
com.apple.security.accessibility)
- Bundle ID:
1 komentar
Komentar Hacker News
Aplikasi ini benar-benar keren. Tapi setiap kali melihatnya, aku jadi teringat Pixel 6 milikku.
Model tahun 2021, tapi sudah bisa mengubah suara menjadi teks secara offline dan otomatis mengoreksi sesuai konteks. Bahkan kalau aku terus bicara, bagian awal kalimatnya juga ikut diperbaiki lagi.
Mengejutkan bahwa Google sudah memasukkan teknologi seperti ini 5 tahun lebih awal daripada Whisper atau Qwen. Tapi jadi penasaran kenapa sekarang justru butuh model transformer 1GB di platform yang lebih kuat
Google mendukung pelatihan model ini sekitar 10 tahun lalu, dan sampai sekarang masih cukup bagus.
Karena tertanam di browser berbasis Webkit atau Blink, banyak situs web memakainya sebagai frontend sederhana.
Tapi modelnya sendiri berupa blob tertutup, jadi tidak didukung di Firefox
Dokumen MDN / Demo Chrome
Aku ada di timnya saat itu, dan karena tidak ada personel untuk pemeliharaan, model offline dibuang lalu dialihkan menjadi online-only.
Alasannya bukan teknis, melainkan semata karena kekurangan personel pemeliharaan
Di Android aku pakai Futo, dan di macOS aku pakai MacWhisper. Jauh lebih baik daripada model bawaan Apple
Sebaliknya, model STT lokal open source seperti Whisper atau Parakeet jauh lebih kuat.
Juga tidak terlalu mudah terganggu oleh kebisingan latar atau gumaman.
Aku bekerja di bidang Voice AI, jadi memakai model-model ini setiap hari, dan perbedaan yang terasa memang besar
Aplikasinya dibuat dengan sangat baik. Kalau boleh memberi masukan,
pertama, fitur tempel otomatis ke clipboard benar-benar perlu ada. Akan bagus kalau tidak perlu menekan hotkey, atau setidaknya bisa diatur
kedua, kecepatannya sedikit lebih lambat dibanding solusi lain. Ini sangat memengaruhi kegunaan
ketiga, akan bagus kalau ada kontrol format. Misalnya saat mengatakan “new line”, itu dikenali sebagai ganti baris sungguhan
Thread ini terasa seperti grup dukungan untuk orang-orang yang masing-masing membuat aplikasi suara→teks untuk macOS
Baru-baru ini aku juga menambahkan Ghost Pepper, dan kamu bahkan bisa membuat skill.md berisi fitur yang dibutuhkan lalu membangun aplikasinya sendiri
Di kategori yang sudah jenuh, kamu harus menjelaskan pembeda dari aplikasi yang sudah ada dengan jelas
Tulisan terkait
KeyVox GitHub
Performanya hampir sama dengan Wispr Flow, dan berjalan sepenuhnya secara lokal
Sebagai pengguna Linux, aku mengembangkan Hyprwhspr
Jika model terbaru Cohere Transcribe dijalankan di GPU, performanya sangat bagus.
Aku penasaran apakah WhisperKit pernah dibandingkan dengan faster-whisper atau turbov3.
Aku juga menantikan Apple segera merilis STT native
Aku juga ingin tahu kenapa membuat yang baru alih-alih meningkatkan proyek yang sudah ada
Akurasinya sudah cukup sehingga tidak perlu model pembersih tambahan.
Tapi untuk audio panjang di atas 30 detik, latensinya mulai terasa. Aku penasaran bagaimana WhisperKit menangani audio panjang
Apa kamu pernah mempertimbangkan fitur foot pedal PTT (Push-To-Talk)?
Apple memang sudah punya STT, tapi kualitas modelnya masih kurang memuaskan
Speech-to-text adalah inti dari alur kerja pengembanganku.
Ini sangat berguna terutama saat menyampaikan prompt secara lisan ke LLM atau coding agent.
Aku merangkum alat input suara open source terbaik per platform di repositori GitHub ini
Aku mengetik 120 kata per menit, jadi jauh lebih cepat daripada bicara.
Selain aksesibilitas, aku sungguh penasaran apakah ini untuk pengetik yang lambat atau untuk ngoding sambil rebahan di sofa
Bukankah aplikasi seperti Handy sudah ada?
Terima kasih sudah berbagi. Aku suka fokusnya pada kecepatan lokal dan privasi.
Aku memakai Hex dengan tujuan serupa, dan penasaran bagaimana menurutmu perbedaan antara kedua aplikasi ini
Belakangan ini, makin kecil LLM local-first, makin terasa bahwa itu akan menjadi infrastruktur inti dalam pengembangan aplikasi.
Seperti dulu Electron memudahkan pembuatan aplikasi yang terlihat bagus, sekarang cukup mengorbankan sedikit RAM
Blog terkait
Ada banyak proyek terkait Whisper, jadi aku penasaran apakah ini memakai model OpenAI yang lama atau versi yang sudah diperbarui.
Aku memakai Parakeet v3 dan ukurannya kecil serta bagus. Tapi aku heran kenapa Whisper masih sebanyak ini dipakai
Halusinasinya lebih sedikit daripada model-model baru, dan juga mudah dijalankan di GPU AMD.
Aku pernah mem-porting Parakeet sendiri, tapi akhirnya kembali ke Whisper
Tapi aku banyak memakai bahasa Polandia dan istilah teknis, jadi Whisper v3 lebih cocok buatku
Jadi keunggulannya adalah bisa disesuaikan dengan lingkungan sistem
Di ponsel GrapheneOS pun aku menghubungkan server Parakeet
Tulisan terkait
Aku sangat suka proyek ini dan ingin mencoba mengintegrasikannya ke alur kerjaku.
Hanya saja, frasa “disediakan gratis sambil dibandingkan dengan lab AI besar yang menerima investasi $80M” agak menggangguku.
Ini terasa bukan sebagai tindakan pemberontakan, melainkan pekerjaan yang memang berada di kelanjutan riset yang sudah ada.
Menyebutnya “spicy” terasa agak berlebihan