Speech API baru Apple menghadirkan transkripsi ucapan real-time yang jauh lebih cepat daripada Whisper

(macstories.net)

16 poin oleh GN⁺ 2025-06-21 | 6 komentar | Bagikan ke WhatsApp

SpeechAnalyzer dan SpeechTranscriber dari Apple mendukung transkripsi ucapan real-time dengan kecepatan yang jauh lebih unggul dan kualitas yang setara dibanding Whisper
Saat mengonversi file video 7GB berdurasi 34 menit dengan alat command line Yap, file tersebut berubah menjadi file SRT hanya dalam 45 detik, hasil yang 2,2 kali lebih cepat dibanding MacWhisper
Hampir tidak ada perbedaan kualitas dengan alat lain seperti MacWhisper dan VidCap, tetapi semuanya masih menunjukkan sedikit kesalahan dalam menangani nama diri dan kata majemuk
Untuk pekerjaan berulang seperti video pengembang berdurasi panjang, kuliah, dan podcast, efek penghematan waktu kumulatif sangat besar
Setelah memasang Yap di beta macOS Tahoe (memerlukan akun pengembang), alat ini bisa langsung digunakan, dan di masa depan diharapkan dapat menggantikan Whisper di seluruh platform Apple (iPhone, iPad, Mac, Vision Pro)

Apple Speech API vs Whisper: revolusi kecepatan baru

SpeechAnalyzer dan SpeechTranscriber yang baru diperkenalkan di WWDC terbaru sudah disertakan dalam beta terbaru macOS, iOS, iPadOS, dan Vision Pro
Penulis sebelumnya sangat tidak puas dengan lambatnya alat berbasis Whisper, tetapi API baru ini menunjukkan performa yang benar-benar mengubah permainan dalam penggunaan nyata
Dengan alat command line sederhana (Yap), file audio/video dapat dengan cepat dikonversi menjadi SRT atau TXT
Video 4K 34 menit, 7GB → Yap: 45 detik / MacWhisper(V3 Turbo): 1 menit 41 detik / VidCap: 1 menit 55 detik / MacWhisper(V2): 3 menit 55 detik
Masalah pengenalan CamelCase (misalnya: AppStories) dan nama diri muncul dengan pola yang mirip di semua alat (mudah diperbaiki lewat pascapemrosesan)

Perbandingan kecepatan nyata dan pemanfaatan dalam workflow

Jika hanya melihat satu video, selisih 1–2 menit mungkin tampak kecil, tetapi saat memproses video berdurasi berjam-jam, efek penghematan waktu kumulatif menjadi besar
Untuk pekerjaan konversi massal seperti video YouTube, otomatisasi yang efisien dimungkinkan dengan menggabungkannya dengan yt-dlp dan alat serupa
Menyediakan workflow cepat untuk subtitle, kuliah, dan ringkasan bagi berbagai pengguna seperti kreator, YouTuber, dan pelajar
Kombinasi SpeechAnalyzer/SpeechTranscriber diperkirakan akan dengan cepat menggantikan Whisper

Penerapan nyata dan cara instalasi

Pasang beta macOS Tahoe (saat ini memerlukan akun pengembang)
Unduh dan pasang alat command line dari repositori GitHub Yap
Setelah menjalankan Yap, masukkan file audio/video → file hasil konversi SRT/TXT langsung dibuat
Informasi teknis tambahan tersedia di dokumentasi resmi Apple Speech API dan video WWDC (nomor 277)

Kesimpulan dan prospek

Apple Speech API menunjukkan keunggulan yang sangat dominan dalam kecepatan dibanding Whisper, sambil tetap mempertahankan kualitas pada tingkat yang sama
Bagi pengguna yang terutama memakai workflow pengenalan/konversi ucapan di platform Apple, API ini sangat mungkin menjadi model standar
Untuk pekerjaan otomatisasi yang sering diulang, diharapkan dapat memaksimalkan efisiensi kumulatif dan meningkatkan produktivitas kerja

6 komentar

brainer 2025-06-21

Nanti harus coba tes juga untuk bahasa Korea.

howudoin 2025-06-21

Platform Apple sendiri memang punya pola pikir yang tertutup, jadi saya kurang tertarik.

gera1d 2025-06-21

Aku tidak suka melihat komentar dengan bahasa santai, tapi tidak ada fitur blokir.

jk34011 2025-06-23

Kalau begitu, komentar yang Anda tulis juga pakai bahasa informal kok;;

crawler 2025-06-22

Mungkin Anda tidak suka kalau Apple dikritik, tapi itu bukan bahasa informal yang merendahkan.
Itu gaya kalimat singkat tanpa akhiran formal, dan ringkasan dasar di GeekNews sendiri memang memakai gaya seperti itu, jadi saya jadi penasaran selama ini Anda membaca tulisan-tulisannya bagaimana...

2025-06-23

[Komentar ini disembunyikan.]