- Biaya inferensi lokal lebih banyak dipengaruhi oleh harga perangkat daripada tarif listrik, dan model M5 Max MacBook Pro 64GB dihitung seharga $4,299
- Laptop Apple Silicon saat dibebani menggunakan 50~100W, dan dengan tarif listrik $0.20 per kWh, biaya listriknya hanya sekitar $0.48 per hari
- Gemma4:31b teramati berjalan pada 10~40 token per detik di M5 Max, sehingga biaya per satu juta token bervariasi dari sekitar $0.40 hingga $4.79
- Gemma4 31b di OpenRouter sekitar $0.38~$0.50 per satu juta token, sehingga baru setara dengan MacBook Pro Max dalam kondisi yang sangat optimistis
- Inferensi lokal umumnya lebih mahal dan lebih lambat daripada OpenRouter, dan dari sudut pandang akuntansi, biaya Pro Max lebih tepat dihitung sekitar 3 kali per satu juta token
Menghitung biaya inferensi lokal
- Tarif listrik berdasarkan tagihan terbaru di Northern Virginia adalah $0.18 per kWh, dan dalam perhitungan dinaikkan menjadi $0.20 per kWh
- Rata-rata tarif listrik rumah tangga AS 2025 dari EIA adalah $0.1730 per kWh
- Jika laptop Apple Silicon menggunakan 50~100W saat dibebani, biaya listriknya adalah $0.009~$0.018 per jam, dan secara kasar bisa dihitung sekitar $0.02 per jam
- Bahkan jika inferensi dijalankan terus-menerus 100%, biaya listriknya hanya sekitar $0.48 per hari
- Model M5 Max MacBook Pro 14 inci 64GB di situs Apple dihargai $4,299, dan 64GB dianggap cukup untuk menjalankan model seperti Gemma 4 31b
- Jika umur pakai hardware dibagi menjadi 3 tahun, 5 tahun, dan 10 tahun, maka biaya tahunannya masing-masing adalah $1,433, $860, dan $430
- Biaya hardware per jam dihitung menjadi $0.16358 untuk 3 tahun, $0.09815 untuk 5 tahun, dan $0.04908 untuk 10 tahun
- Dalam penggunaan umum, 5 tahun adalah perkiraan umur pakai yang masuk akal, dan 7 atau 10 tahun juga mungkin, tetapi untuk beban inferensi maksimum, 3 tahun juga bisa menjadi perkiraan yang masuk akal
Biaya per token dan perbandingan dengan OpenRouter
- Variabel kunci dalam biaya model lokal adalah jumlah token yang dapat dihasilkan per jam, dan dalam pengujian M5 Max, model seperti Gemma4:31b berada pada kisaran 10~40 token per detik
- Pada 10 token per detik, itu berarti 36,000 token per jam, dan dengan umur pakai 3~10 tahun serta tarif listrik $0.18 per kWh, biaya per satu juta token dihitung menjadi $1.61~$4.79
- Pada 40 token per detik, itu berarti 144,000 token per jam, dan biaya per satu juta token turun menjadi $0.40~$1.20
- Pada Apple Silicon, biaya hardware lebih menentukan total biaya daripada tarif listrik
- Harga Gemma4 31b di OpenRouter adalah sekitar $0.38~$0.50 per satu juta token
- Dalam kondisi optimistis seperti 50W, 40 token per detik, dan penggunaan 10 tahun, MacBook Pro Max turun ke biaya yang kurang lebih setara dengan OpenRouter
- Dalam kondisi pesimistis seperti 100W, 10 token per detik, dan penggunaan 3 tahun, MacBook Pro Max 10 kali lebih mahal daripada OpenRouter
- Dari sudut pandang akuntansi, estimasi yang masuk akal adalah biaya inferensi lokal Pro Max sekitar 3 kali OpenRouter per satu juta token
- Dalam kebanyakan kasus, kecepatan inferensi adalah variabel yang lebih besar daripada biaya, dan inferensi lokal lebih lambat daripada inferensi cloud
- Beberapa penyedia Gemma 4 di OpenRouter mencapai 60~70 token per detik, sehingga 3~7 kali lebih cepat daripada 10~20 token per detik yang teramati di Pro Max
- Biaya gaji karyawan yang menggunakan laptop kerja sekitar 1000 kali lebih besar daripada biaya token yang dapat dihasilkan secara lokal, sehingga dalam konteks ini lebih masuk akal membelanjakan biaya ke Anthropic
- Tetap mengejutkan bahwa perangkat konsumen bisa menjalankan model dengan performa yang mendekati Anthropic Sonnet
1 komentar
Komentar Hacker News
Analisis ini kurang bagus, karena semua angkanya terus dibulatkan ke atas. Tarif listrik dinaikkan 10%, lalu untuk rentang konsumsi daya dipilih batas atas yang 2x dari nilai rendah, kemudian dikalikan lagi dengan tarif listrik yang sudah dibengkakkan
Lalu diasumsikan Mac yang baru dibeli dijalankan untuk inferensi 24 jam sehari pada beban maksimum. Kenapa harus begitu? Apple Silicon memang cepat, tetapi seperti yang penulis sendiri tunjukkan, sekitar 10–40 token per detik itu tidak buruk namun memang bukan tujuan utamanya
Pusat data tidak membayar tarif listrik rumah tangga, memakai chip yang lebih efisien daya, dan memakai chip yang memang dirancang bukan seperti Mac. Apple Silicon cukup masuk akal jika tidak dipakai membakar token 24/7/365, dan jika Anda tidak membeli perangkat keras baru semata-mata untuk tujuan itu. Anda bisa memakai Mac Studio beberapa kali seminggu untuk pekerjaan yang dibutuhkan, sambil menjalankan ollama “hampir gratis” lewat tailnet. Secara ekonomi ini masuk akal selama Anda tidak mencoba memperlakukan Mac Studio seperti klaster H100 berpendingin cair, dan tentu saja perangkat keras multi-tenant dengan listrik murah serta token per watt yang lebih tinggi hampir selalu menang
Kalau saya tidak salah paham, perhitungan ini memasukkan harga penuh laptop ke dalam biaya pembuatan token. Yang terlewat adalah bahwa dengan uang itu Anda bukan hanya mendapat output LLM, tetapi juga laptopnya
Jika Anda ingin meletakkan mesin ini di sudut gelap dan menjalankannya semata sebagai server pemakan token, maka laptop memang pilihan teknologi yang sangat buruk untuk tujuan itu. Tetapi jika Anda memang berniat memakai laptop sebagai laptop, memiliki laptop jelas lebih baik daripada tidak punya
Anda juga mendapatkan privasi, kebebasan dari sensor, dan kendali atas model yang dipakai. Anda bisa menghindari situasi ketika tiga bulan setelah membangun alur kerja yang cocok untuk model tertentu, model itu tiba-tiba menghilang
Jumlah orang seperti ini ternyata absurd banyaknya, yang menghabiskan lebih dari $10.000 untuk Mac Studio tetapi tetap mentok di bottleneck komputasi dan juga tidak punya banyak opsi yang lebih efisien daripada Gemma 4
Perusahaan AI frontier menjual dengan rugi
Bahkan jika mengesampingkan semua yang dikatakan u/bastawhiz[0], Claude, OpenAI, Gemini, dan lainnya benar-benar membakar ratusan miliar dolar sambil menjual sesuatu yang nilainya $1 hanya beberapa sen, dengan harapan menjadi yang terakhir bertahan
Kalau saya menghabiskan $10 untuk menanam jeruk lalu menjualnya seharga $1, tentu menanam sendiri akan terlihat lebih mahal. Model-model ini pada akhirnya hanya bisa makin mahal seiring waktu, dan mereka cuma ingin menguasai pasar sebelum berhenti menjual rugi besar-besaran
[0]: https://news.ycombinator.com/item?id=48168433
Selain itu, ada juga alasan teknis mengapa inferensi menjadi jauh lebih efisien pada skala besar
LLAMA 3.1 405B pada 2024 harganya $6/$12 per juta token, tetapi pada 2026 model yang sama menjadi $3/$3. Token GPT5.5 lebih mahal daripada 5.4 karena model paling cerdas pada titik waktu tertentu jauh lebih besar daripada sebelumnya. Tetapi dua tahun lagi, kemungkinan biaya menyediakan model seukuran GPT5.5 akan lebih murah daripada biaya GPT5.5 saat ini. Teknik distilasi efektif mengurangi jumlah parameter yang diperlukan untuk mencapai skor benchmark yang sama, jadi dua tahun lagi tingkat kecerdasan yang sama juga kemungkinan akan lebih murah
Jika ingin model dense yang bagus, lebih baik pakai qwen3.6 27B. Lebih cepat juga, dan kalau Anda tidak percaya saat saya bilang model ini lebih pintar, harga OpenRouter saat dibandingkan dengan Gemma yang lebih besar, lebih lambat, dan kurang efisien memori, bisa bicara sendiri
Kalau ingin model yang lebih cepat, tinggal pakai qwen3.6 35B. Kalau model Gemma lebih cocok untuk pekerjaan Anda, gemma 4 26B juga bisa. Ada alasan kenapa orang-orang, termasuk saya, terus membicarakan keduanya, terutama 27B. Model itu cukup kecil untuk dijalankan dengan kecepatan yang layak, apalagi sekarang llama.cpp akhirnya punya dukungan resmi MTP bawaan, dan pada banyak beban kerja serta semua benchmark yang saya coba, model ini setara atau bahkan mengungguli model-model yang seharusnya tidak bisa dikalahkannya
Beberapa hari lalu saya bangun saat internet mati, lalu menjalankan 27B di pi, memberinya kata sandi router, dan memintanya mendiagnosis masalahnya. Saat saya kembali setelah mengambil kopi, sudah ada laporan lengkap termasuk usulan langkah penanganan. Saya suka OpenRouter dan memakainya untuk banyak hal, tetapi itu tidak lebih murah
Tentu semua ini bercampur dengan subjektivitas berdasarkan pengalaman pribadi setelah memakai semua model tersebut. Mungkin ada kasus di mana 31B Gemma unggul, tetapi saya belum menemukannya, dan saya sudah menjalankan keempat model yang disebut sejak beberapa jam setelah masing-masing dirilis untuk berbagai tugas. Bahkan di hermes saya sendiri, mengganti gemma 4 26B ke qwen3.5 9B justru memberi hasil yang lebih baik, dan itu bahkan belum seri 3.6 yang jauh lebih baik. Membuat analisis seperti ini tanpa memakai model yang saat ini dianggap state of the art di perangkat keras konsumen terasa seperti memakai data usang atau cherry-picking
Demikian juga DeepSeek V4 Flash cukup terjangkau sebagai model lokal, dan dengan DwarfStar 4 Anda bahkan bisa menjalankannya dengan mudah di MacBook 96GB
Membayar biaya inferensi itu sendiri bukan masalah, tetapi model lokal membuka kemungkinan yang cukup luar biasa seperti penggunaan sepenuhnya offline, pemrosesan data yang berisi informasi identitas pribadi atau data yang dilindungi hak istimewa hukum, dan pekerjaan yang sama sekali tidak perlu khawatir soal lonjakan tagihan
Hal lain adalah Anda bisa membuat layanan yang Anda yakini akan terus berjalan 100% tanpa perlu cemas soal gangguan layanan atau penutupan. Model frontier saat ini memang punya masalah itu. Konfigurasi Qwen lokal saya sepenuhnya dapat diprediksi, dan selama saya masih bisa mendapatkan perangkat keras untuk menjalankannya, ia akan terus bisa dipakai
Strategi yang masuk akal adalah memakai keduanya. Siapkan alat inferensi lokal, lalu gabungkan model cloud murah dan mahal. Gunakan GPT-5.5 dan Opus-4.7 untuk hal yang memang mereka kuasai seperti tugas penalaran yang sulit, pakai yang terakhir dengan akal-akalan langganan Claude agar lebih murah, gunakan DeepSeek V4 Pro untuk tugas yang sedikit kurang sulit, V4 Flash untuk sebagian besar generasi kode, dan model lokal untuk pekerjaan yang memang membutuhkannya
Para penyedia itu tampaknya mengikuti harga dasar Alibaba untuk 27B Dense, dan menurut saya pribadi itu agak mahal. Bisa jadi karena model Qwen kurang efisien dalam inferensi dibanding model frontier atau Gemma, dan biaya menyediakan panjang sekuens yang panjang juga mahal
Contoh debugging dengan 27B itu bagus. Setelah membeli Mac dengan memori 4x lebih besar, saya melihat keberhasilan yang mirip, dan Qwen 35B A3B tiba-tiba menjadi sangat bagus. Versi 9B di laptop sulit dibilang bagus
Ada banyak komentar di sini yang membahas masalah analisis pada tulisan asli, tetapi untuk kesimpulan yang lebih luas, saya rasa banyak di antaranya mendekati “perbedaan tanpa arti”. Di luar privasi, jika murni melihat biaya dan performa, pengembang individu lebih baik memakai layanan hosted daripada self-hosting
Di tempat kerja, biaya token dibayar pemberi kerja, dan di luar kerja, kebanyakan pengembang merasa langganan bulanan $20/$100/$200 dari penyedia pilihan mereka sudah cukup. Tidak banyak pengembang yang benar-benar masuk ke kondisi di mana menjalankan model lokal masuk akal dari sudut pandang biaya terhadap performa
Yang lebih penting, menyiapkan model lokal dalam praktiknya tampak lebih dekat ke hobi, pembelajaran, atau kendali privasi daripada penghematan biaya atau peningkatan produktivitas
Komputer pribadi dulu mengakhiri era terminal sebelumnya, sebagian besar perusahaan saat itu sudah lenyap, dan hanya IBM serta beberapa perusahaan sisa yang masih bertahan, itu pun tinggal bayang-bayang masa lalunya
Penulis hanya membandingkan biaya token output, tetapi pada beban kerja agentik yang umum, token input adalah bagian besar dari biaya. Pada inferensi lokal, token input pada dasarnya gratis
Biaya implisitnya hanya berupa waktu tunggu token pertama yang lebih lama, konsumsi daya yang lebih tinggi, dan kecepatan token output yang lebih rendah
Saya melihat beberapa sesi agent acak di aktivitas OpenRouter saya, dan biaya inputnya 10x lebih besar daripada biaya output. Prompt caching OpenRouter rumit dan sulit diandalkan, tetapi pada llama-cpp di perangkat keras lokal, hampir gratis untuk sebagian besar kasus
Kalau dilakukan dengan cerdas, tidak juga. MacBook M5 Max 128GB memang laptop premium seharga $6.000, tetapi bisa melakukan banyak hal dan menjadi mesin utama yang bagus untuk dipakai sepanjang hari
Selain itu, Anda bisa menjalankan DeepSeek V4 Flash untuk menangani pekerjaan lokal yang tidak sepele tanpa sensor atau pembatasan, tanpa koneksi internet, dan dengan data pribadi yang sangat sensitif. Itu transaksi yang bagus. Jika Anda membeli dual Mac Studio 512GB seharga $25.000 demi meninggalkan OpenAI dan kawan-kawan, Anda akan kecewa baik dari sisi performa maupun biaya
Sebagai penulis blog, saya menulis ini dari MacBook M5 Max 128GB
Saya memang tidak melakukan semua itu 100% sepanjang waktu. Saya menjalankan pelatihan machine learning semalaman dan memeriksa hasilnya pagi hari, menjadikannya semacam server selama jam kerja untuk menjalankan model lokal, lalu memakainya untuk editing video dan pemodelan 3D di waktu pribadi. Ini mesin yang luar biasa serbaguna, dan semua itu dilakukan sambil menjaga data tetap berada di perangkat dan alur kerja sepenuhnya dalam kendali saya
Rahasia umum lainnya adalah beberapa perusahaan memberi puluhan ribu token gratis dengan model yang cukup bagus seperti Gemini 3.1 atau GLM 4.6
Tulisan aslinya membandingkan Gemma di sana-sini, tetapi kesimpulannya justru mengatakan lebih baik membayar Anthropic. Anthropic mengenakan $15 per juta token output, yang bahkan menurut standar OpenRouter pun 30–35x lebih mahal
Ini seperti membandingkan sepeda listrik di rumah dengan sewa sepeda listrik, lalu menyimpulkan bahwa karena kecepatannya mirip, maka sebaiknya menyewa Toyota. Melelahkan melihat tulisan buruk mendapat begitu banyak perhatian
Tulisan itu membuat kesalahan besar di bagian akhir sehingga benar-benar keliru. Anda tidak bisa hanya melihat token yang dihasilkan lalu menyebut itu sebagai biaya. Dalam coding agentik, ada banyak giliran interaksi, jadi Anda membayar bukan hanya token output tetapi juga semua token input yang dikirim setiap kali. Bahkan kalau ada cache dan jadi 10x lebih murah pun tetap sama. Jadi perhitungan ini sama sekali tidak merepresentasikan biaya API dengan akurat
Kedua, jika Anda memakai tim agent, Anda bisa sangat meningkatkan jumlah token lokal yang dihasilkan. Satu percakapan terikat pada bandwidth memori sehingga tidak sepenuhnya memakai sumber daya komputasi. Jika Anda bisa membatch token dari beberapa agent, Anda bisa dengan mudah meningkatkan throughput token 5x
Saya sama sekali tidak bisa bergantung pada AI cloud. Bagi saya, privasi dan kendali penuh jauh lebih penting daripada kecepatan atau model paling mutakhir
Bagi saya ini satu kategori dengan panel surya atap. Kalau Anda termasuk tipe orang yang mendapatkan ketenangan batin dari kendali atas infrastruktur dan berkurangnya ketergantungan, maka ekonominya tidak harus selalu sempurna secara ketat