- SpeechAnalyzer dan SpeechTranscriber dari Apple mendukung transkripsi ucapan real-time dengan kecepatan yang jauh lebih unggul dan kualitas yang setara dibanding Whisper
- Saat mengonversi file video 7GB berdurasi 34 menit dengan alat command line Yap, file tersebut berubah menjadi file SRT hanya dalam 45 detik, hasil yang 2,2 kali lebih cepat dibanding MacWhisper
- Hampir tidak ada perbedaan kualitas dengan alat lain seperti MacWhisper dan VidCap, tetapi semuanya masih menunjukkan sedikit kesalahan dalam menangani nama diri dan kata majemuk
- Untuk pekerjaan berulang seperti video pengembang berdurasi panjang, kuliah, dan podcast, efek penghematan waktu kumulatif sangat besar
- Setelah memasang Yap di beta macOS Tahoe (memerlukan akun pengembang), alat ini bisa langsung digunakan, dan di masa depan diharapkan dapat menggantikan Whisper di seluruh platform Apple (iPhone, iPad, Mac, Vision Pro)
Apple Speech API vs Whisper: revolusi kecepatan baru
- SpeechAnalyzer dan SpeechTranscriber yang baru diperkenalkan di WWDC terbaru sudah disertakan dalam beta terbaru macOS, iOS, iPadOS, dan Vision Pro
- Penulis sebelumnya sangat tidak puas dengan lambatnya alat berbasis Whisper, tetapi API baru ini menunjukkan performa yang benar-benar mengubah permainan dalam penggunaan nyata
- Dengan alat command line sederhana (Yap), file audio/video dapat dengan cepat dikonversi menjadi SRT atau TXT
- Video 4K 34 menit, 7GB → Yap: 45 detik / MacWhisper(V3 Turbo): 1 menit 41 detik / VidCap: 1 menit 55 detik / MacWhisper(V2): 3 menit 55 detik
- Masalah pengenalan CamelCase (misalnya: AppStories) dan nama diri muncul dengan pola yang mirip di semua alat (mudah diperbaiki lewat pascapemrosesan)
Perbandingan kecepatan nyata dan pemanfaatan dalam workflow
- Jika hanya melihat satu video, selisih 1–2 menit mungkin tampak kecil, tetapi saat memproses video berdurasi berjam-jam, efek penghematan waktu kumulatif menjadi besar
- Untuk pekerjaan konversi massal seperti video YouTube, otomatisasi yang efisien dimungkinkan dengan menggabungkannya dengan yt-dlp dan alat serupa
- Menyediakan workflow cepat untuk subtitle, kuliah, dan ringkasan bagi berbagai pengguna seperti kreator, YouTuber, dan pelajar
- Kombinasi SpeechAnalyzer/SpeechTranscriber diperkirakan akan dengan cepat menggantikan Whisper
Penerapan nyata dan cara instalasi
- Pasang beta macOS Tahoe (saat ini memerlukan akun pengembang)
- Unduh dan pasang alat command line dari repositori GitHub Yap
- Setelah menjalankan Yap, masukkan file audio/video → file hasil konversi SRT/TXT langsung dibuat
- Informasi teknis tambahan tersedia di dokumentasi resmi Apple Speech API dan video WWDC (nomor 277)
Kesimpulan dan prospek
- Apple Speech API menunjukkan keunggulan yang sangat dominan dalam kecepatan dibanding Whisper, sambil tetap mempertahankan kualitas pada tingkat yang sama
- Bagi pengguna yang terutama memakai workflow pengenalan/konversi ucapan di platform Apple, API ini sangat mungkin menjadi model standar
- Untuk pekerjaan otomatisasi yang sering diulang, diharapkan dapat memaksimalkan efisiensi kumulatif dan meningkatkan produktivitas kerja
6 komentar
Nanti harus coba tes juga untuk bahasa Korea.
Platform Apple sendiri memang punya pola pikir yang tertutup, jadi saya kurang tertarik.
Aku tidak suka melihat komentar dengan bahasa santai, tapi tidak ada fitur blokir.
Kalau begitu, komentar yang Anda tulis juga pakai bahasa informal kok;;
Mungkin Anda tidak suka kalau Apple dikritik, tapi itu bukan bahasa informal yang merendahkan.
Itu gaya kalimat singkat tanpa akhiran formal, dan ringkasan dasar di GeekNews sendiri memang memakai gaya seperti itu, jadi saya jadi penasaran selama ini Anda membaca tulisan-tulisannya bagaimana...