OpenAI menagih per menit, jadi percepat audio untuk mempersingkat waktu

(george.mand.is)

16 poin oleh GN⁺ 2025-06-26 | 2 komentar | Bagikan ke WhatsApp

Biaya transkripsi audio OpenAI dihitung berdasarkan durasi audio yang diinput
Jika audio diubah menjadi 2–3x lebih cepat dengan alat seperti ffmpeg lalu diunggah, waktu pemrosesan dan biaya bisa ditekan tanpa penurunan kualitas transkripsi yang berarti
Pada audio 40 menit, saat diubah ke 2x dan 3x, biaya berkurang 23–33%
Model gpt-4o-transcribe hanya mendukung audio di bawah 25 menit, sehingga mempercepat audio menjadi solusi praktis
Kualitas hasil tetap terjaga hingga 2–3x, tetapi pada kecepatan 4x akurasi transkripsi turun drastis

Ringkasan

Cara sederhana untuk memanfaatkan kebijakan harga transkripsi dan audio OpenAI dengan lebih efisien
Strategi menghemat biaya dan waktu dengan meningkatkan kecepatan audio agar konten yang sama diproses dalam durasi lebih singkat
Dengan alat open source seperti ffmpeg, file audio dapat dipercepat 2–3x lalu diunggah ke API OpenAI untuk menurunkan harga dan waktu pemrosesan tanpa kehilangan kualitas
Metode ini особенно efektif untuk audio yang panjang, khususnya karena batas input panjang audio (25 menit pada model gpt-4o-transcribe)

Cara utama menghemat waktu/biaya transkripsi

Layanan transkripsi audio OpenAI menetapkan biaya berdasarkan durasi audio yang diterima
Karena itu, jika file suara dipercepat 2–3x terlebih dahulu dengan ffmpeg atau alat serupa sebelum diunggah, jumlah token input berkurang besar dan waktu pemrosesan transkripsi juga menjadi lebih singkat
Jika diterapkan pada praktik nyata, untuk audio 40 menit biaya token input turun lebih dari 33% (3x: $0.07, 2x: $0.09)
Biaya token output hampir sama terlepas dari kecepatan audio (karena dialokasikan otomatis berdasarkan panjang ringkasan hasil)
Kecepatan 2x dan 3x tetap stabil dari sisi akurasi transkripsi, tetapi pada 4x model mulai gagal mengenali isi dengan benar

Contoh skrip yang digunakan

Perlu menggunakan alat open source berikut:

yt-dlp : mengekstrak audio dari YouTube dan layanan lain
ffmpeg : konversi audio dan pengaturan kecepatan
llm : otomatisasi peringkasan teks

Alur kerja lengkap sebagai referensi:

Ekstrak audio dengan yt-dlp, lalu
Ubah audio menjadi 2–3x dengan ffmpeg dan simpan sebagai mp3
Unggah mp3 ke OpenAI API (gpt-4o-transcribe) untuk memperoleh teks transkripsi
Masukkan hasil teks tersebut ke llm untuk membuat ringkasan yang diinginkan secara otomatis

Pengalaman nyata dan trial and error

Awalnya penulis ingin mengambil transkripsi otomatis YouTube, tetapi versi lama yt-dlp (2025.04.03) menyebabkan error saat mengunduh
Setelah program diperbarui, semuanya kembali normal, tetapi di sela itu penulis sempat mencoba pendekatan ekstraksi manual + percepatan ffmpeg → pemrosesan via OpenAI API
Saat menjalankan Whisper lokal di M3 MacBook Air, muncul isu beban baterai dan kecepatan eksekusi, sehingga offload ke cloud (OpenAI API) terasa lebih cepat dan efisien

Kualitas transkripsi dan karakteristik algoritme

Meski kecepatan audio dinaikkan ke 2x–3x, seperti manusia yang masih bisa memahami rekaman saat diputar cepat, model AI juga tetap mampu menangkap informasi inti
Mirip optimasi ukuran file gambar (lossy/lossless), meski ada sebagian informasi pendengaran yang hilang pada kecepatan tinggi (misalnya beberapa kata sesekali hilang), hal itu tidak terlalu mengganggu proses ringkasan dan pemahaman
Seperti otak manusia yang tetap bisa memahami teks dengan ejaan salah atau beberapa kata hilang, algoritme transkripsi juga masih mampu mengekstrak sebagian besar informasi utama dari audio yang dipercepat

Perbandingan biaya nyata dan besarnya penghematan

Berdasarkan gpt-4o-transcribe dari OpenAI, biaya menurut kecepatan audio dihitung sebagai berikut
- 2x (1.186 detik): $0.09
- 3x (791 detik): $0.07
- Jika audio input terlalu panjang (misalnya sumber asli 2.372 detik), model tidak dapat memprosesnya karena batas persyaratan
- Pada model Whisper-1 tarifnya $0.006/menit, dan dengan metode ini penghematan biaya secara total bisa mencapai sekitar 67%
Biaya token output hampir sama terlepas dari kecepatan input (dipengaruhi context window model dan metode peringkasan)
Saat diterapkan pada 4x, hasil output menurun parah, termasuk munculnya kalimat berulang

Rekomendasi dan kesimpulan

Jika ingin memakai transkripsi suara OpenAI dengan cepat dan murah, mempercepat audio ke 2–3x adalah pilihan paling efisien
Kecepatan yang terlalu tinggi (4x) menimbulkan masalah penurunan akurasi
Ini adalah metode yang sederhana dan mudah dijalankan, sekaligus menguntungkan untuk menjaga kualitas dan menekan biaya
Bisa menjadi cara langsung untuk menghemat biaya/waktu bagi startup dan praktisi IT yang perlu memproses data suara berdurasi panjang seperti ringkasan audio bisnis umum atau notulen rapat

Ringkasan (TL;DR)

OpenAI menagih berdasarkan durasi audio atau token input/output
Jika suara dipercepat 2–3x dengan ffmpeg sebelum diinput, waktu dan biaya sama-sama bisa dihemat
Karena token input (atau durasi) berkurang, biaya ikut turun
2x dan 3x adalah kecepatan optimal; mulai 4x ke atas kualitas transkripsi menurun

2 komentar

mbsahg 2025-06-27

Apakah Anda bisa menggunakan gpt-4o-transcribe?
Saya bertanya ke OpenAI kemarin, dan mereka memberi tahu saya bahwa hanya model Whisper yang bisa dipanggil menggunakan API key.
Saya sedang berpikir untuk mencoba Whisper dengan pengaturan yang lebih cepat untuk melihat apakah kualitasnya masih bisa dipertahankan.

GN⁺ 2025-06-26

Komentar Hacker News

Karena kecepatan ceramah Andrej pada dasarnya sudah alami tetapi setidaknya 1,5x lebih cepat daripada orang kebanyakan, saya merasa untuk bisa mengikutinya, kecepatan pemutaran YouTube harus diturunkan ke 1x. Kalau ingin membuat menit OpenAI lebih efisien, ada usulan untuk memproses audio dengan menghapus bagian hening sepenuhnya.
Dengan contoh perintah ffmpeg, semua keheningan di bawah -50dB selama 20ms atau lebih diganti menjadi jeda 20ms, dan dari pengalaman ini video 39 menit 31 detik bisa dipangkas menjadi 31 menit 34 detik. Sesuai maksud tulisan aslinya, efeknya diukur hanya dari durasi; kualitas versi yang dipendekkan tidak diperiksa terpisah
- Saya selalu menonton semua video di kecepatan 2x, dan ceramah Andrej juga terasa alami di 2x. Namun, orang-orang di sekitar saya sering bilang video yang saya buat terlalu cepat sehingga harus ditonton di 0.75x. Dari sudut pandang saya, kalau bukan 2x rasanya terlalu lambat. Sebagai perbandingan, kecepatan bicara John Carmack bahkan di 2x terasa sepenuhnya alami. Kalau penasaran dengan video saya yang terbaru, bisa lihat di sini; sebagian besar dibuat spontan, hanya menentukan topik lalu merekam, dan sudah lebih dari 250~300 video. Saya penasaran apakah video saya terasa terlalu cepat, atau justru masih cukup normal
- Kalau memang kualitasnya tidak diperiksa, rasanya hasil dua versi itu bisa saja dibandingkan dengan mudah memakai sesuatu seperti diffchecker
- Saya berharap ada kecepatan YouTube 2.25x untuk orang biasa. Saya selalu pakai shortcut, mendengarkan sekitar 90% konten di 2x, tetapi khusus ceramah Andrej sulit diputar lebih cepat dari 1.25x
- Saya setuju dengan pendapat bahwa karena Andrej berbicara lebih dari 1,5x lebih cepat daripada orang biasa, pemutaran YouTube perlu dikembalikan ke kecepatan normal. Saya penasaran apakah ada cara untuk mendeteksi kecepatan bicara seseorang secara otomatis. Kecepatan memang subjektif dan berbeda-beda untuk tiap orang, tetapi akan menarik jika ada cara mendeteksi saat metode yang dicoba OP gagal. (Misalnya seperti kualitas yang hancur saat dipercepat ke x4)
- Saya senang membayangkan masih ada lebih banyak sihir ffmpeg yang bisa dimanfaatkan. Terima kasih atas idenya, saya pasti ingin mencobanya nanti
Tentang perbedaan antara sekadar melihat sekilas dan benar-benar meluangkan waktu untuk menyimak.
Saat saya hanya membaca transcript dan ringkasan ceramah Andrej, kesannya biasa saja jadi saya lewatkan. Tetapi ketika menonton video penuhnya di YouTube, saya justru mendapat pengalaman yang memicu begitu banyak ide, pemikiran, dan keputusan. Hal seperti ini sering saya alami juga pada topik lain. Mendengarkannya langsung di konferensi jauh lebih berguna daripada ceramah online. Menontonnya online pun jauh lebih bermanfaat daripada hanya membaca ringkasannya. Bahkan, daripada hanya memikirkannya sekilas selama 10 menit lalu selesai, berjalan sambil merenungkannya dengan mendalam terasa jauh lebih baik. Untuk berpikir, biasanya memang lebih baik melakukannya dengan lambat
- Ini terasa sangat aneh. Sebagai developer yang dulu benci sekolah menjejalkan pengetahuan secara seragam, sekarang saya justru dengan senang hati membayar untuk pengalaman dalam bentuk seperti itu. Membaca itu sendiri menyenangkan, dan sensasi saat pemikiran saya nyambung ketika menonton ceramah juga keren. Saya memandang bahwa memikirkan sendiri makna dunia adalah bagian dari menjadi manusia. Justru karena itu, saya sama sekali tidak bisa setuju dengan kecenderungan seperti ini karena rasanya malah mengarah pada membuat semua orang lebih bodoh
- Sangat setuju dengan komentar di atas. Nilai sebuah ceramah menurut saya bukan pada fakta atau idenya yang sudah terbuka itu sendiri, melainkan pada beragam inspirasi tambahan yang muncul karenanya. Di dunia ada begitu banyak informasi, dan konteks adalah segalanya. Kalau saja saya diberi sedikit konteks yang lebih konkret, saya mungkin akan meluangkan waktu untuk menontonnya; tetapi kalau cuma menerima tautan tanpa konteks, sikap saya jadinya hanya ingin cepat menangkap ‘inti’-nya lalu merespons. Pada akhirnya, berkat ini saya jadi tertarik dan mungkin akan menontonnya lagi. Sekali lagi saya setuju bahwa “berpikir pelan biasanya lebih baik”
- Memang benar bahwa berpikir pelan itu penting, tetapi saya juga berpikir pendekatan mendengarkan sebagian isi ceramah dulu lalu menontonnya lagi nanti untuk merenungkannya lebih dalam bisa cukup berguna
- Saya bertanya-tanya apakah yang penting benar-benar kecepatan videonya, atau justru informasi tambahan yang dibawa video dan audio. Pembicara yang bagus terasa bisa menyampaikan pesan yang sama jauh lebih baik lewat audio/video, karena audio bisa memberi penekanan pada bagian tertentu, dan video bisa menambahkan pesan lewat gestur atau ekspresi wajah
- Sebaliknya, ketika melihat orang mendengarkan podcast atau audiobook di 2~3x, saya merasa kalau untuk diri saya sendiri justru memutarnya lebih lambat di 0.8x membuat saya lebih fokus dan punya lebih banyak waktu untuk berpikir. Saya penasaran apakah saya termasuk kasus yang tidak umum
Saya mencoba merangkum ceramah 40 menit dengan transcription API OpenAI, tetapi karena terlalu panjang, saya kompres menjadi 3x dengan ffmpeg agar bisa masuk dalam batas 25 menit. Ternyata memang berhasil, dan karena menghemat biaya maupun waktu, saya membagikannya dalam tulisan. Termasuk skrip lengkap dan rincian biaya
- Ada candaan bahwa trik seperti ini sebenarnya bisa dimanfaatkan diam-diam untuk memulai bisnis transcription yang lebih murah daripada OpenAI
“Bagaimana dengan akurasinya?” “Tidak tahu, memang itu poinnya.” Kesan bahwa ini karya yang keren persis seperti nuansa penulis aslinya, sekaligus perasaan bahwa masa depan seperti ini entah kenapa terasa mengkhawatirkan
- Dari awal pun transkripsi buatan manusia tidak pernah dijamin akurat. Dalam proses konversi seperti ini selalu ada kesalahan, dan itu akan terus menjadi bagian dari ekspektasi ke depan. Yang justru lebih mengkhawatirkan adalah generative AI menafsirkan sesuatu seolah itu fakta, atau gagasan sosial bahwa ‘AI lebih dapat dipercaya’. Anggapan publik bahwa AI lebih andal/adil daripada manusia, pakar, atau jurnalis juga berbahaya
Pada versi sebelum Gemini 2.0, ada skema yang selalu mengenakan biaya tetap 258 token untuk satu gambar; jadi pernah ada trik untuk memasukkan jauh lebih banyak teks ke dalam gambar agar pemrosesannya jadi lebih murah
Saya membuat ekstensi Chrome yang menjalankan model OpenAI Whisper dari huggingface/transformers.js lewat WebGPU, sehingga audio bisa diubah menjadi teks langsung di browser. Lihat daftar contoh. Misalnya, saya tidak ingin mendengar atau menonton video dari media sosial presiden, tetapi ketika muncul pernyataan ngawur yang bisa berdampak besar pada ekonomi, saya tetap perlu mendeteksinya dengan cepat. Karena itu, setiap 1 menit saya crawl post baru, memproses OCR dan transcription audio secara lokal dan otomatis, lalu melakukan analisis teks juga, dan hanya memberi notifikasi ketika memang penting secara ekonomi. Tautan proyek
- Implementasi yang luar biasa
Selain OpenAI Whisper API, ada juga rekomendasi Groq (murah: distil-large-v3 $0.02/jam, whisper-large-v3-turbo $0.04, OpenAI $0.36/jam). Di internal, ketika rapat dewan kota diunggah ke YouTube, transkripsinya diproses otomatis memakai Groq, Replicate, Deepgram, dan lain-lain
- Tip bahwa Hugging Face Inference API memudahkan pergantian antar banyak penyedia API sekaligus. Contohnya bisa dilihat langsung di sini
- Dengan tarif $0.02~$0.04 per jam, rasanya optimasi tambahan mungkin tidak terlalu perlu, tetapi muncul rasa penasaran apakah biaya bisa ditekan lebih jauh dengan mempercepat audio. Juga muncul pertanyaan karena YouTube sendiri sudah menyediakan subtitle otomatis untuk sebagian besar video dalam waktu kurang dari sehari
- Ditekankan bahwa pengguna MacBook terbaru bisa menjalankan model Whisper sepenuhnya gratis secara lokal. Rasanya banyak orang belum menyadari bahwa sumber daya komputasi dari hardware yang mereka miliki sendiri sebenarnya sudah sangat murah
- Ada juga informasi bahwa di cloudflare workers ai tersedia opsi memakai model whisper-large-v3-turbo dengan biaya sekitar $0.03 per jam (tautan)
Ditekankan bahwa di Google AI studio, cukup memasukkan tautan YouTube maka transkripsi otomatis dengan speaker label dan petunjuk visual bisa langsung diekstrak. Dukungan multimodal untuk video juga disebutkan
Saya bekerja di OpenAI pada urusan terkait API, dan cukup terkejut karena hasil pada kecepatan 2~3x ternyata masih cukup bagus. Bahkan untuk kanal telepon, audio 8khz di-upsample menjadi 24khz dan tetap dipakai dengan baik. Namun, makin jauh dari 1x, penurunan akurasi memang jelas ada, dan dalam jangka panjang dukungan upload file yang lebih panjang tetap diperlukan
- Ada masukan agar optimasi kecepatan seperti ini diteliti secara internal untuk menemukan titik kelipatan yang meminimalkan kehilangan akurasi. Ini juga memberi isyarat bahwa prapemrosesan sederhana bisa menurunkan harga API secara efektif
Ada komentar bahwa gaya menulis yang langsung masuk ke inti terasa menyenangkan. Banyak tulisan jadi bertele-tele tanpa alasan, dan pendekatan seperti ini terasa segar. Mungkin setengah dari para penulis juga akan sadar bahwa mereka sebenarnya tidak punya pesan inti sama sekali