- Biaya transkripsi audio OpenAI dihitung berdasarkan durasi audio yang diinput
- Jika audio diubah menjadi 2–3x lebih cepat dengan alat seperti ffmpeg lalu diunggah, waktu pemrosesan dan biaya bisa ditekan tanpa penurunan kualitas transkripsi yang berarti
- Pada audio 40 menit, saat diubah ke 2x dan 3x, biaya berkurang 23–33%
- Model gpt-4o-transcribe hanya mendukung audio di bawah 25 menit, sehingga mempercepat audio menjadi solusi praktis
- Kualitas hasil tetap terjaga hingga 2–3x, tetapi pada kecepatan 4x akurasi transkripsi turun drastis
Ringkasan
- Cara sederhana untuk memanfaatkan kebijakan harga transkripsi dan audio OpenAI dengan lebih efisien
- Strategi menghemat biaya dan waktu dengan meningkatkan kecepatan audio agar konten yang sama diproses dalam durasi lebih singkat
- Dengan alat open source seperti ffmpeg, file audio dapat dipercepat 2–3x lalu diunggah ke API OpenAI untuk menurunkan harga dan waktu pemrosesan tanpa kehilangan kualitas
- Metode ini особенно efektif untuk audio yang panjang, khususnya karena batas input panjang audio (25 menit pada model gpt-4o-transcribe)
Cara utama menghemat waktu/biaya transkripsi
- Layanan transkripsi audio OpenAI menetapkan biaya berdasarkan durasi audio yang diterima
- Karena itu, jika file suara dipercepat 2–3x terlebih dahulu dengan ffmpeg atau alat serupa sebelum diunggah, jumlah token input berkurang besar dan waktu pemrosesan transkripsi juga menjadi lebih singkat
- Jika diterapkan pada praktik nyata, untuk audio 40 menit biaya token input turun lebih dari 33% (3x: $0.07, 2x: $0.09)
- Biaya token output hampir sama terlepas dari kecepatan audio (karena dialokasikan otomatis berdasarkan panjang ringkasan hasil)
- Kecepatan 2x dan 3x tetap stabil dari sisi akurasi transkripsi, tetapi pada 4x model mulai gagal mengenali isi dengan benar
Contoh skrip yang digunakan
Perlu menggunakan alat open source berikut:
- yt-dlp : mengekstrak audio dari YouTube dan layanan lain
- ffmpeg : konversi audio dan pengaturan kecepatan
- llm : otomatisasi peringkasan teks
Alur kerja lengkap sebagai referensi:
- Ekstrak audio dengan yt-dlp, lalu
- Ubah audio menjadi 2–3x dengan ffmpeg dan simpan sebagai mp3
- Unggah mp3 ke OpenAI API (gpt-4o-transcribe) untuk memperoleh teks transkripsi
- Masukkan hasil teks tersebut ke llm untuk membuat ringkasan yang diinginkan secara otomatis
Pengalaman nyata dan trial and error
- Awalnya penulis ingin mengambil transkripsi otomatis YouTube, tetapi versi lama yt-dlp (2025.04.03) menyebabkan error saat mengunduh
- Setelah program diperbarui, semuanya kembali normal, tetapi di sela itu penulis sempat mencoba pendekatan ekstraksi manual + percepatan ffmpeg → pemrosesan via OpenAI API
- Saat menjalankan Whisper lokal di M3 MacBook Air, muncul isu beban baterai dan kecepatan eksekusi, sehingga offload ke cloud (OpenAI API) terasa lebih cepat dan efisien
Kualitas transkripsi dan karakteristik algoritme
- Meski kecepatan audio dinaikkan ke 2x–3x, seperti manusia yang masih bisa memahami rekaman saat diputar cepat, model AI juga tetap mampu menangkap informasi inti
- Mirip optimasi ukuran file gambar (lossy/lossless), meski ada sebagian informasi pendengaran yang hilang pada kecepatan tinggi (misalnya beberapa kata sesekali hilang), hal itu tidak terlalu mengganggu proses ringkasan dan pemahaman
- Seperti otak manusia yang tetap bisa memahami teks dengan ejaan salah atau beberapa kata hilang, algoritme transkripsi juga masih mampu mengekstrak sebagian besar informasi utama dari audio yang dipercepat
Perbandingan biaya nyata dan besarnya penghematan
- Berdasarkan gpt-4o-transcribe dari OpenAI, biaya menurut kecepatan audio dihitung sebagai berikut
- 2x (1.186 detik): $0.09
- 3x (791 detik): $0.07
- Jika audio input terlalu panjang (misalnya sumber asli 2.372 detik), model tidak dapat memprosesnya karena batas persyaratan
- Pada model Whisper-1 tarifnya $0.006/menit, dan dengan metode ini penghematan biaya secara total bisa mencapai sekitar 67%
- Biaya token output hampir sama terlepas dari kecepatan input (dipengaruhi context window model dan metode peringkasan)
- Saat diterapkan pada 4x, hasil output menurun parah, termasuk munculnya kalimat berulang
Rekomendasi dan kesimpulan
- Jika ingin memakai transkripsi suara OpenAI dengan cepat dan murah, mempercepat audio ke 2–3x adalah pilihan paling efisien
- Kecepatan yang terlalu tinggi (4x) menimbulkan masalah penurunan akurasi
- Ini adalah metode yang sederhana dan mudah dijalankan, sekaligus menguntungkan untuk menjaga kualitas dan menekan biaya
- Bisa menjadi cara langsung untuk menghemat biaya/waktu bagi startup dan praktisi IT yang perlu memproses data suara berdurasi panjang seperti ringkasan audio bisnis umum atau notulen rapat
Ringkasan (TL;DR)
- OpenAI menagih berdasarkan durasi audio atau token input/output
- Jika suara dipercepat 2–3x dengan ffmpeg sebelum diinput, waktu dan biaya sama-sama bisa dihemat
- Karena token input (atau durasi) berkurang, biaya ikut turun
- 2x dan 3x adalah kecepatan optimal; mulai 4x ke atas kualitas transkripsi menurun
2 komentar
Apakah Anda bisa menggunakan
gpt-4o-transcribe?Saya bertanya ke OpenAI kemarin, dan mereka memberi tahu saya bahwa hanya model Whisper yang bisa dipanggil menggunakan API key.
Saya sedang berpikir untuk mencoba Whisper dengan pengaturan yang lebih cepat untuk melihat apakah kualitasnya masih bisa dipertahankan.
Komentar Hacker News
Karena kecepatan ceramah Andrej pada dasarnya sudah alami tetapi setidaknya 1,5x lebih cepat daripada orang kebanyakan, saya merasa untuk bisa mengikutinya, kecepatan pemutaran YouTube harus diturunkan ke 1x. Kalau ingin membuat menit OpenAI lebih efisien, ada usulan untuk memproses audio dengan menghapus bagian hening sepenuhnya.
Dengan contoh perintah
ffmpeg, semua keheningan di bawah -50dB selama 20ms atau lebih diganti menjadi jeda 20ms, dan dari pengalaman ini video 39 menit 31 detik bisa dipangkas menjadi 31 menit 34 detik. Sesuai maksud tulisan aslinya, efeknya diukur hanya dari durasi; kualitas versi yang dipendekkan tidak diperiksa terpisahSaya selalu menonton semua video di kecepatan 2x, dan ceramah Andrej juga terasa alami di 2x. Namun, orang-orang di sekitar saya sering bilang video yang saya buat terlalu cepat sehingga harus ditonton di 0.75x. Dari sudut pandang saya, kalau bukan 2x rasanya terlalu lambat. Sebagai perbandingan, kecepatan bicara John Carmack bahkan di 2x terasa sepenuhnya alami. Kalau penasaran dengan video saya yang terbaru, bisa lihat di sini; sebagian besar dibuat spontan, hanya menentukan topik lalu merekam, dan sudah lebih dari 250~300 video. Saya penasaran apakah video saya terasa terlalu cepat, atau justru masih cukup normal
Kalau memang kualitasnya tidak diperiksa, rasanya hasil dua versi itu bisa saja dibandingkan dengan mudah memakai sesuatu seperti diffchecker
Saya berharap ada kecepatan YouTube 2.25x untuk orang biasa. Saya selalu pakai shortcut, mendengarkan sekitar 90% konten di 2x, tetapi khusus ceramah Andrej sulit diputar lebih cepat dari 1.25x
Saya setuju dengan pendapat bahwa karena Andrej berbicara lebih dari 1,5x lebih cepat daripada orang biasa, pemutaran YouTube perlu dikembalikan ke kecepatan normal. Saya penasaran apakah ada cara untuk mendeteksi kecepatan bicara seseorang secara otomatis. Kecepatan memang subjektif dan berbeda-beda untuk tiap orang, tetapi akan menarik jika ada cara mendeteksi saat metode yang dicoba OP gagal. (Misalnya seperti kualitas yang hancur saat dipercepat ke x4)
Saya senang membayangkan masih ada lebih banyak sihir
ffmpegyang bisa dimanfaatkan. Terima kasih atas idenya, saya pasti ingin mencobanya nantiTentang perbedaan antara sekadar melihat sekilas dan benar-benar meluangkan waktu untuk menyimak.
Saat saya hanya membaca transcript dan ringkasan ceramah Andrej, kesannya biasa saja jadi saya lewatkan. Tetapi ketika menonton video penuhnya di YouTube, saya justru mendapat pengalaman yang memicu begitu banyak ide, pemikiran, dan keputusan. Hal seperti ini sering saya alami juga pada topik lain. Mendengarkannya langsung di konferensi jauh lebih berguna daripada ceramah online. Menontonnya online pun jauh lebih bermanfaat daripada hanya membaca ringkasannya. Bahkan, daripada hanya memikirkannya sekilas selama 10 menit lalu selesai, berjalan sambil merenungkannya dengan mendalam terasa jauh lebih baik. Untuk berpikir, biasanya memang lebih baik melakukannya dengan lambat
Ini terasa sangat aneh. Sebagai developer yang dulu benci sekolah menjejalkan pengetahuan secara seragam, sekarang saya justru dengan senang hati membayar untuk pengalaman dalam bentuk seperti itu. Membaca itu sendiri menyenangkan, dan sensasi saat pemikiran saya nyambung ketika menonton ceramah juga keren. Saya memandang bahwa memikirkan sendiri makna dunia adalah bagian dari menjadi manusia. Justru karena itu, saya sama sekali tidak bisa setuju dengan kecenderungan seperti ini karena rasanya malah mengarah pada membuat semua orang lebih bodoh
Sangat setuju dengan komentar di atas. Nilai sebuah ceramah menurut saya bukan pada fakta atau idenya yang sudah terbuka itu sendiri, melainkan pada beragam inspirasi tambahan yang muncul karenanya. Di dunia ada begitu banyak informasi, dan konteks adalah segalanya. Kalau saja saya diberi sedikit konteks yang lebih konkret, saya mungkin akan meluangkan waktu untuk menontonnya; tetapi kalau cuma menerima tautan tanpa konteks, sikap saya jadinya hanya ingin cepat menangkap ‘inti’-nya lalu merespons. Pada akhirnya, berkat ini saya jadi tertarik dan mungkin akan menontonnya lagi. Sekali lagi saya setuju bahwa “berpikir pelan biasanya lebih baik”
Memang benar bahwa berpikir pelan itu penting, tetapi saya juga berpikir pendekatan mendengarkan sebagian isi ceramah dulu lalu menontonnya lagi nanti untuk merenungkannya lebih dalam bisa cukup berguna
Saya bertanya-tanya apakah yang penting benar-benar kecepatan videonya, atau justru informasi tambahan yang dibawa video dan audio. Pembicara yang bagus terasa bisa menyampaikan pesan yang sama jauh lebih baik lewat audio/video, karena audio bisa memberi penekanan pada bagian tertentu, dan video bisa menambahkan pesan lewat gestur atau ekspresi wajah
Sebaliknya, ketika melihat orang mendengarkan podcast atau audiobook di 2~3x, saya merasa kalau untuk diri saya sendiri justru memutarnya lebih lambat di 0.8x membuat saya lebih fokus dan punya lebih banyak waktu untuk berpikir. Saya penasaran apakah saya termasuk kasus yang tidak umum
Saya mencoba merangkum ceramah 40 menit dengan transcription API OpenAI, tetapi karena terlalu panjang, saya kompres menjadi 3x dengan
ffmpegagar bisa masuk dalam batas 25 menit. Ternyata memang berhasil, dan karena menghemat biaya maupun waktu, saya membagikannya dalam tulisan. Termasuk skrip lengkap dan rincian biaya“Bagaimana dengan akurasinya?” “Tidak tahu, memang itu poinnya.” Kesan bahwa ini karya yang keren persis seperti nuansa penulis aslinya, sekaligus perasaan bahwa masa depan seperti ini entah kenapa terasa mengkhawatirkan
Pada versi sebelum Gemini 2.0, ada skema yang selalu mengenakan biaya tetap 258 token untuk satu gambar; jadi pernah ada trik untuk memasukkan jauh lebih banyak teks ke dalam gambar agar pemrosesannya jadi lebih murah
Saya membuat ekstensi Chrome yang menjalankan model OpenAI Whisper dari huggingface/transformers.js lewat WebGPU, sehingga audio bisa diubah menjadi teks langsung di browser. Lihat daftar contoh. Misalnya, saya tidak ingin mendengar atau menonton video dari media sosial presiden, tetapi ketika muncul pernyataan ngawur yang bisa berdampak besar pada ekonomi, saya tetap perlu mendeteksinya dengan cepat. Karena itu, setiap 1 menit saya crawl post baru, memproses OCR dan transcription audio secara lokal dan otomatis, lalu melakukan analisis teks juga, dan hanya memberi notifikasi ketika memang penting secara ekonomi. Tautan proyek
Selain OpenAI Whisper API, ada juga rekomendasi Groq (murah: distil-large-v3 $0.02/jam, whisper-large-v3-turbo $0.04, OpenAI $0.36/jam). Di internal, ketika rapat dewan kota diunggah ke YouTube, transkripsinya diproses otomatis memakai Groq, Replicate, Deepgram, dan lain-lain
Tip bahwa Hugging Face Inference API memudahkan pergantian antar banyak penyedia API sekaligus. Contohnya bisa dilihat langsung di sini
Dengan tarif $0.02~$0.04 per jam, rasanya optimasi tambahan mungkin tidak terlalu perlu, tetapi muncul rasa penasaran apakah biaya bisa ditekan lebih jauh dengan mempercepat audio. Juga muncul pertanyaan karena YouTube sendiri sudah menyediakan subtitle otomatis untuk sebagian besar video dalam waktu kurang dari sehari
Ditekankan bahwa pengguna MacBook terbaru bisa menjalankan model Whisper sepenuhnya gratis secara lokal. Rasanya banyak orang belum menyadari bahwa sumber daya komputasi dari hardware yang mereka miliki sendiri sebenarnya sudah sangat murah
Ada juga informasi bahwa di cloudflare workers ai tersedia opsi memakai model whisper-large-v3-turbo dengan biaya sekitar $0.03 per jam (tautan)
Ditekankan bahwa di Google AI studio, cukup memasukkan tautan YouTube maka transkripsi otomatis dengan speaker label dan petunjuk visual bisa langsung diekstrak. Dukungan multimodal untuk video juga disebutkan
Saya bekerja di OpenAI pada urusan terkait API, dan cukup terkejut karena hasil pada kecepatan 2~3x ternyata masih cukup bagus. Bahkan untuk kanal telepon, audio 8khz di-upsample menjadi 24khz dan tetap dipakai dengan baik. Namun, makin jauh dari 1x, penurunan akurasi memang jelas ada, dan dalam jangka panjang dukungan upload file yang lebih panjang tetap diperlukan
Ada komentar bahwa gaya menulis yang langsung masuk ke inti terasa menyenangkan. Banyak tulisan jadi bertele-tele tanpa alasan, dan pendekatan seperti ini terasa segar. Mungkin setengah dari para penulis juga akan sadar bahwa mereka sebenarnya tidak punya pesan inti sama sekali