4 poin oleh GN⁺ 2026-04-07 | 1 komentar | Bagikan ke WhatsApp
  • Aplikasi pengenalan suara lokal di macOS yang secara otomatis mengubah ucapan menjadi teks lalu menempelkannya saat Anda menekan tombol Control dan berbicara
  • Semua proses pengenalan suara dan perapian teks dilakukan sepenuhnya secara lokal, sehingga privasi tetap terlindungi tanpa pengiriman ke cloud
  • Dibangun di atas WhisperKit dan LLM.swift, dengan model Hugging Face yang diunduh otomatis lalu disimpan dalam cache
  • Dengan fitur perapian pintar, aplikasi ini menghapus kata-kata tidak perlu dan memperbaiki ekspresi koreksi diri, serta berjalan di latar belakang sebagai aplikasi menu bar
  • Dirilis sebagai open source berlisensi MIT, dan berjalan di Apple Silicon macOS 14 atau lebih baru

Ikhtisar

  • Ghost Pepper adalah aplikasi transkripsi suara-ke-teks sepenuhnya lokal untuk macOS, yang menyediakan fungsi menekan tombol Control, berbicara, lalu melepasnya untuk otomatis mengubah ucapan menjadi teks dan menempelkannya
  • Tidak menggunakan API cloud, dan semua data serta model diproses hanya secara lokal
  • Berjalan di macOS 14.0 atau lebih baru berbasis Apple Silicon (M1 atau lebih baru)
  • Berjalan sebagai aplikasi menu bar, dan dapat diatur untuk otomatis berjalan saat login
  • Proyek open source yang dirilis dengan lisensi MIT

Fitur utama

  • Tekan tombol Control lalu bicara → saat tombol dilepas, otomatis melakukan transkripsi teks dan menempelkannya
  • Dengan arsitektur berjalan lokal, pengenalan suara dan model pascaproses semuanya berjalan di dalam Mac
  • Dengan fitur perapian pintar, aplikasi ini menghapus ucapan yang tidak perlu (uh, um, dan sejenisnya) dan secara otomatis memperbaiki ekspresi koreksi diri
  • Antarmuka khusus menu bar yang bekerja di latar belakang tanpa ikon Dock
  • Mendukung pengaturan pengguna: dapat mengubah prompt perapian, memilih mikrofon, dan menyalakan/mematikan fitur

Cara kerja

  • Semua model berbasis open source, dan saat pertama kali dijalankan akan diunduh otomatis lalu disimpan dalam cache lokal
  • Pengenalan suara dilakukan melalui WhisperKit, dan perapian teks melalui LLM.swift
  • File model disediakan melalui Hugging Face
  • Model pengenalan suara

    • Whisper tiny.en (~75MB): model bahasa Inggris saja yang paling cepat
    • Whisper small.en (~466MB): default, model bahasa Inggris saja dengan akurasi tinggi
    • Whisper small (multilingual): mendukung banyak bahasa
    • Parakeet v3 (~1.4GB): mendukung 25 bahasa, berbasis FluidAudio
  • Model perapian teks

    • Qwen 3.5 0.8B (~535MB): default, diproses dalam sekitar 1–2 detik
    • Qwen 3.5 2B (~1.3GB): kecepatan pemrosesan cepat (sekitar 4–5 detik)
    • Qwen 3.5 4B (~2.8GB): kualitas terbaik (sekitar 5–7 detik)
    Iklan

Instalasi dan menjalankan aplikasi

  • Instalasi aplikasi

    1. Unduh GhostPepper.dmg
    2. Buka DMG lalu seret ke folder Applications
    3. Izinkan akses mikrofon dan Aksesibilitas
    4. Mulai gunakan dengan menekan tombol Control lalu berbicara
  • Build dari source

    1. Clone repositori
    2. Buka GhostPepper.xcodeproj di Xcode
    3. Build dan jalankan dengan Cmd+R
Iklan

Izin yang diperlukan

Izin Tujuan
Microphone Merekam suara
Accessibility Menjalankan hotkey global dan penempelan otomatis

Informasi tambahan

  • Berjalan otomatis saat login aktif secara default, dan dapat dinonaktifkan di pengaturan
  • Tidak menyimpan log ke disk — teks hasil transkripsi tidak dicatat ke file, dan log debug hanya disimpan di memori lalu dihapus saat aplikasi ditutup

Susunan teknis dan dependensi

  • WhisperKit: mesin pengenalan suara
  • LLM.swift: LLM lokal untuk perapian teks
  • Hugging Face: hosting model
  • Sparkle: pengelolaan pembaruan aplikasi macOS

Arti nama

  • Semua model berjalan hanya secara lokal sehingga data pribadi tidak dikirim ke luar
  • Nama Ghost Pepper melambangkan fitur kuat yang tersedia secara gratis

Dukungan untuk perusahaan dan perangkat terkelola

  • Aplikasi memerlukan izin Accessibility, yang umumnya membutuhkan hak admin
  • Di lingkungan MDM (Jamf, Kandji, Mosaic, dll.), persetujuan awal dapat diberikan melalui profil PPPC (Privacy Preferences Policy Control)
    • Bundle ID: com.github.matthartman.ghostpepper
    • Team ID: BBVMGXR9AY
    • Permission: Accessibility (com.apple.security.accessibility)

1 komentar

 
GN⁺ 2026-04-07
Komentar Hacker News
  • Aplikasi ini benar-benar keren. Tapi setiap kali melihatnya, aku jadi teringat Pixel 6 milikku.
    Model tahun 2021, tapi sudah bisa mengubah suara menjadi teks secara offline dan otomatis mengoreksi sesuai konteks. Bahkan kalau aku terus bicara, bagian awal kalimatnya juga ikut diperbaiki lagi.
    Mengejutkan bahwa Google sudah memasukkan teknologi seperti ini 5 tahun lebih awal daripada Whisper atau Qwen. Tapi jadi penasaran kenapa sekarang justru butuh model transformer 1GB di platform yang lebih kuat

    • Ini adalah model yang sama yang dipakai di WebSpeech API. Bisa berjalan sepenuhnya secara offline juga.
      Google mendukung pelatihan model ini sekitar 10 tahun lalu, dan sampai sekarang masih cukup bagus.
      Karena tertanam di browser berbasis Webkit atau Blink, banyak situs web memakainya sebagai frontend sederhana.
      Tapi modelnya sendiri berupa blob tertutup, jadi tidak didukung di Firefox
      Dokumen MDN / Demo Chrome
    • Microsoft OneNote juga punya fitur serupa sekitar tahun 2007.
      Aku ada di timnya saat itu, dan karena tidak ada personel untuk pemeliharaan, model offline dibuang lalu dialihkan menjadi online-only.
      Alasannya bukan teknis, melainkan semata karena kekurangan personel pemeliharaan
    • Akurasinya jauh lebih rendah.
      Di Android aku pakai Futo, dan di macOS aku pakai MacWhisper. Jauh lebih baik daripada model bawaan Apple
    • macOS dan iOS juga bisa lewat fitur dikte bawaan. Di Mac tekan Globe + D
    • Pixel 7 milikku justru tingkat pengenalannya terlalu rendah sampai hampir tidak bisa kupakai.
      Sebaliknya, model STT lokal open source seperti Whisper atau Parakeet jauh lebih kuat.
      Juga tidak terlalu mudah terganggu oleh kebisingan latar atau gumaman.
      Aku bekerja di bidang Voice AI, jadi memakai model-model ini setiap hari, dan perbedaan yang terasa memang besar
  • Aplikasinya dibuat dengan sangat baik. Kalau boleh memberi masukan,
    pertama, fitur tempel otomatis ke clipboard benar-benar perlu ada. Akan bagus kalau tidak perlu menekan hotkey, atau setidaknya bisa diatur
    kedua, kecepatannya sedikit lebih lambat dibanding solusi lain. Ini sangat memengaruhi kegunaan
    ketiga, akan bagus kalau ada kontrol format. Misalnya saat mengatakan “new line”, itu dikenali sebagai ganti baris sungguhan

  • Thread ini terasa seperti grup dukungan untuk orang-orang yang masing-masing membuat aplikasi suara→teks untuk macOS

    • Aku merangkum semua aplikasi yang kubuat di sini.
      Baru-baru ini aku juga menambahkan Ghost Pepper, dan kamu bahkan bisa membuat skill.md berisi fitur yang dibutuhkan lalu membangun aplikasinya sendiri
    • Bahkan di subreddit /r/macapps pun ada terlalu banyak aplikasi whisper dictation.
      Di kategori yang sudah jenuh, kamu harus menjelaskan pembeda dari aplikasi yang sudah ada dengan jelas
      Tulisan terkait
    • Aku juga pernah membuat satu sendiri, lalu belakangan melihat KeyVox dan akhirnya berbicara dengan pembuatnya.
      KeyVox GitHub
    • Aku mengimplementasikannya di nixOS dengan menambahkan indikator ke Noctalia.
      Performanya hampir sama dengan Wispr Flow, dan berjalan sepenuhnya secara lokal
    • Dengan gaya khas Apple, aku memperkirakan ini akan masuk sebagai fitur bawaan sekitar macOS 27 atau 28
  • Sebagai pengguna Linux, aku mengembangkan Hyprwhspr
    Jika model terbaru Cohere Transcribe dijalankan di GPU, performanya sangat bagus.
    Aku penasaran apakah WhisperKit pernah dibandingkan dengan faster-whisper atau turbov3.
    Aku juga menantikan Apple segera merilis STT native

    • Aku penasaran bagaimana perbandingannya dengan Handy.
      Aku juga ingin tahu kenapa membuat yang baru alih-alih meningkatkan proyek yang sudah ada
    • Aku menjalankan Whisper large-v3 secara self-hosted di M2 Max.
      Akurasinya sudah cukup sehingga tidak perlu model pembersih tambahan.
      Tapi untuk audio panjang di atas 30 detik, latensinya mulai terasa. Aku penasaran bagaimana WhisperKit menangani audio panjang
    • Aku memakai Hyprwhspr setiap hari di Omarchy. Benar-benar luar biasa
    • Aku juga tadinya mau membuat sesuatu yang mirip, jadi berkat ini aku tidak perlu membuatnya lagi.
      Apa kamu pernah mempertimbangkan fitur foot pedal PTT (Push-To-Talk)?
      Apple memang sudah punya STT, tapi kualitas modelnya masih kurang memuaskan
  • Speech-to-text adalah inti dari alur kerja pengembanganku.
    Ini sangat berguna terutama saat menyampaikan prompt secara lisan ke LLM atau coding agent.
    Aku merangkum alat input suara open source terbaik per platform di repositori GitHub ini

    • Aku penasaran bagaimana kamu memakai dikte dalam pengembangan.
      Aku mengetik 120 kata per menit, jadi jauh lebih cepat daripada bicara.
      Selain aksesibilitas, aku sungguh penasaran apakah ini untuk pengetik yang lambat atau untuk ngoding sambil rebahan di sofa
  • Bukankah aplikasi seperti Handy sudah ada?

    • Ada beberapa hal yang kurang memuaskan.
      1. Di Linux, sistem serupa bisa dibuat dengan mudah menggunakan akun FTP dan curlftpfs, serta SVN/CVS
      2. Ini tidak benar-benar menggantikan USB drive sepenuhnya. Untuk presentasi offline, aku masih tetap membawa USB
      3. Model bisnisnya tidak jelas. Aku ragu apakah bisa menghasilkan uang sambil menawarkannya gratis
    • Handy adalah alat yang benar-benar dibuat dengan baik
    • Bisa saja ada beberapa solusi untuk masalah yang sama
    • Ya, speech-to-text memang sudah ada
    • Untuk use case-ku, ini pas sekali. Tidak perlu menyentuh UI aplikasi lain
  • Terima kasih sudah berbagi. Aku suka fokusnya pada kecepatan lokal dan privasi.
    Aku memakai Hex dengan tujuan serupa, dan penasaran bagaimana menurutmu perbedaan antara kedua aplikasi ini

  • Belakangan ini, makin kecil LLM local-first, makin terasa bahwa itu akan menjadi infrastruktur inti dalam pengembangan aplikasi.
    Seperti dulu Electron memudahkan pembuatan aplikasi yang terlihat bagus, sekarang cukup mengorbankan sedikit RAM

    • Betul, pada akhirnya sepertinya semuanya akan menjadi seperti ClaudeVM.
      Blog terkait
  • Ada banyak proyek terkait Whisper, jadi aku penasaran apakah ini memakai model OpenAI yang lama atau versi yang sudah diperbarui.
    Aku memakai Parakeet v3 dan ukurannya kecil serta bagus. Tapi aku heran kenapa Whisper masih sebanyak ini dipakai

    • Whisper masih merupakan model yang stabil dan andal.
      Halusinasinya lebih sedikit daripada model-model baru, dan juga mudah dijalankan di GPU AMD.
      Aku pernah mem-porting Parakeet sendiri, tapi akhirnya kembali ke Whisper
    • Aku juga sedang mempertimbangkan pindah ke Parakeet.
      Tapi aku banyak memakai bahasa Polandia dan istilah teknis, jadi Whisper v3 lebih cocok buatku
    • Whisper mendukung banyak bahasa, dan punya berbagai versi dari tiny sampai turbo.
      Jadi keunggulannya adalah bisa disesuaikan dengan lingkungan sistem
    • Di macOS aku juga memakai Parakeet lewat Voice Ink, dan di rumah aku menjalankan Kokoro untuk suara→teks.
      Di ponsel GrapheneOS pun aku menghubungkan server Parakeet
      Tulisan terkait
  • Aku sangat suka proyek ini dan ingin mencoba mengintegrasikannya ke alur kerjaku.
    Hanya saja, frasa “disediakan gratis sambil dibandingkan dengan lab AI besar yang menerima investasi $80M” agak menggangguku.
    Ini terasa bukan sebagai tindakan pemberontakan, melainkan pekerjaan yang memang berada di kelanjutan riset yang sudah ada.
    Menyebutnya “spicy” terasa agak berlebihan