Apple Silicon Lebih Mahal daripada OpenRouter

(williamangel.net)

3 poin oleh GN⁺ 2026-05-18 | 2 komentar | Bagikan ke WhatsApp

Biaya inferensi lokal lebih banyak dipengaruhi oleh harga perangkat daripada tarif listrik, dan model M5 Max MacBook Pro 64GB dihitung seharga $4,299
Laptop Apple Silicon saat dibebani menggunakan 50~100W, dan dengan tarif listrik $0.20 per kWh, biaya listriknya hanya sekitar $0.48 per hari
Gemma4:31b teramati berjalan pada 10~40 token per detik di M5 Max, sehingga biaya per satu juta token bervariasi dari sekitar $0.40 hingga $4.79
Gemma4 31b di OpenRouter sekitar $0.38~$0.50 per satu juta token, sehingga baru setara dengan MacBook Pro Max dalam kondisi yang sangat optimistis
Inferensi lokal umumnya lebih mahal dan lebih lambat daripada OpenRouter, dan dari sudut pandang akuntansi, biaya Pro Max lebih tepat dihitung sekitar 3 kali per satu juta token

Menghitung biaya inferensi lokal

Tarif listrik berdasarkan tagihan terbaru di Northern Virginia adalah $0.18 per kWh, dan dalam perhitungan dinaikkan menjadi $0.20 per kWh
Rata-rata tarif listrik rumah tangga AS 2025 dari EIA adalah $0.1730 per kWh
Jika laptop Apple Silicon menggunakan 50~100W saat dibebani, biaya listriknya adalah $0.009~$0.018 per jam, dan secara kasar bisa dihitung sekitar $0.02 per jam
Bahkan jika inferensi dijalankan terus-menerus 100%, biaya listriknya hanya sekitar $0.48 per hari
Model M5 Max MacBook Pro 14 inci 64GB di situs Apple dihargai $4,299, dan 64GB dianggap cukup untuk menjalankan model seperti Gemma 4 31b
Jika umur pakai hardware dibagi menjadi 3 tahun, 5 tahun, dan 10 tahun, maka biaya tahunannya masing-masing adalah $1,433, $860, dan $430
Biaya hardware per jam dihitung menjadi $0.16358 untuk 3 tahun, $0.09815 untuk 5 tahun, dan $0.04908 untuk 10 tahun
Dalam penggunaan umum, 5 tahun adalah perkiraan umur pakai yang masuk akal, dan 7 atau 10 tahun juga mungkin, tetapi untuk beban inferensi maksimum, 3 tahun juga bisa menjadi perkiraan yang masuk akal

Biaya per token dan perbandingan dengan OpenRouter

Variabel kunci dalam biaya model lokal adalah jumlah token yang dapat dihasilkan per jam, dan dalam pengujian M5 Max, model seperti Gemma4:31b berada pada kisaran 10~40 token per detik
Pada 10 token per detik, itu berarti 36,000 token per jam, dan dengan umur pakai 3~10 tahun serta tarif listrik $0.18 per kWh, biaya per satu juta token dihitung menjadi $1.61~$4.79
Pada 40 token per detik, itu berarti 144,000 token per jam, dan biaya per satu juta token turun menjadi $0.40~$1.20
Pada Apple Silicon, biaya hardware lebih menentukan total biaya daripada tarif listrik
Harga Gemma4 31b di OpenRouter adalah sekitar $0.38~$0.50 per satu juta token
Dalam kondisi optimistis seperti 50W, 40 token per detik, dan penggunaan 10 tahun, MacBook Pro Max turun ke biaya yang kurang lebih setara dengan OpenRouter
Dalam kondisi pesimistis seperti 100W, 10 token per detik, dan penggunaan 3 tahun, MacBook Pro Max 10 kali lebih mahal daripada OpenRouter
Dari sudut pandang akuntansi, estimasi yang masuk akal adalah biaya inferensi lokal Pro Max sekitar 3 kali OpenRouter per satu juta token
Dalam kebanyakan kasus, kecepatan inferensi adalah variabel yang lebih besar daripada biaya, dan inferensi lokal lebih lambat daripada inferensi cloud
Beberapa penyedia Gemma 4 di OpenRouter mencapai 60~70 token per detik, sehingga 3~7 kali lebih cepat daripada 10~20 token per detik yang teramati di Pro Max
Biaya gaji karyawan yang menggunakan laptop kerja sekitar 1000 kali lebih besar daripada biaya token yang dapat dihasilkan secara lokal, sehingga dalam konteks ini lebih masuk akal membelanjakan biaya ke Anthropic
Tetap mengejutkan bahwa perangkat konsumen bisa menjalankan model dengan performa yang mendekati Anthropic Sonnet

2 komentar

jjw9512151 2026-05-20

OpenRouter memang jelas berjalan di hardware yang dioptimalkan di data center, jadi lebih cepat, tapi tidak bisa mengeluarkan sekitar 200 token/detik sih..

GN⁺ 2026-05-18

Komentar Hacker News

Analisis ini kurang bagus, karena semua angkanya terus dibulatkan ke atas. Tarif listrik dinaikkan 10%, lalu untuk rentang konsumsi daya dipilih batas atas yang 2x dari nilai rendah, kemudian dikalikan lagi dengan tarif listrik yang sudah dibengkakkan
Lalu diasumsikan Mac yang baru dibeli dijalankan untuk inferensi 24 jam sehari pada beban maksimum. Kenapa harus begitu? Apple Silicon memang cepat, tetapi seperti yang penulis sendiri tunjukkan, sekitar 10–40 token per detik itu tidak buruk namun memang bukan tujuan utamanya
Pusat data tidak membayar tarif listrik rumah tangga, memakai chip yang lebih efisien daya, dan memakai chip yang memang dirancang bukan seperti Mac. Apple Silicon cukup masuk akal jika tidak dipakai membakar token 24/7/365, dan jika Anda tidak membeli perangkat keras baru semata-mata untuk tujuan itu. Anda bisa memakai Mac Studio beberapa kali seminggu untuk pekerjaan yang dibutuhkan, sambil menjalankan ollama “hampir gratis” lewat tailnet. Secara ekonomi ini masuk akal selama Anda tidak mencoba memperlakukan Mac Studio seperti klaster H100 berpendingin cair, dan tentu saja perangkat keras multi-tenant dengan listrik murah serta token per watt yang lebih tinggi hampir selalu menang
- Bahkan jika semuanya diasumsikan serendah mungkin dalam skenario paling optimistis, hasilnya tetap $0.40 per juta token, sementara di OpenRouter model yang sama harganya $0.38/juta token
- Tulisan ini sendiri tidak masuk akal. OpenRouter tidak bisa dipakai sebagai komputer serbaguna, jadi kenapa membandingkan satu komputer penuh dengan SaaS tujuan tunggal
- Saya tidak tahu angka 40 token per detik itu datang dari mana. Di M5 Max 128GB, saat menjalankan Gemma 4 31B saya pernah melihat 95–100 token per detik. Saya bahkan pernah bereksperimen dengan prompt yang sama dan hasilnya lebih cepat daripada Claude Opus 4.5
- Sebenarnya, menghitung seolah token dihasilkan 24 jam sehari adalah skenario terbaik. Kalau dihitung berdasarkan penggunaan nyata 8 jam per hari, biaya tetap perangkat keras masih menjadi bagian terbesar dari anggaran, tetapi token yang dihasilkan hanya 1/3, sehingga biaya per token menjadi 3x lebih tinggi
Kalau saya tidak salah paham, perhitungan ini memasukkan harga penuh laptop ke dalam biaya pembuatan token. Yang terlewat adalah bahwa dengan uang itu Anda bukan hanya mendapat output LLM, tetapi juga laptopnya
Jika Anda ingin meletakkan mesin ini di sudut gelap dan menjalankannya semata sebagai server pemakan token, maka laptop memang pilihan teknologi yang sangat buruk untuk tujuan itu. Tetapi jika Anda memang berniat memakai laptop sebagai laptop, memiliki laptop jelas lebih baik daripada tidak punya
Anda juga mendapatkan privasi, kebebasan dari sensor, dan kendali atas model yang dipakai. Anda bisa menghindari situasi ketika tiga bulan setelah membangun alur kerja yang cocok untuk model tertentu, model itu tiba-tiba menghilang
- Metrik yang lebih baik mungkin adalah selisih harga antara laptop yang diperlukan untuk menjalankan model lokal dan laptop yang memang akan dibeli juga
- Anda memang mendapat kendali atas model, tetapi Anda kehilangan akses ke model-model dengan performa terbaik dan hanya bisa menjalankan model yang lebih kecil
- Anda bukan cuma mendapat output LLM, tetapi juga laptop, dan kalau itu Mac maka saat upgrade nanti kemungkinan nilai jual bekasnya juga masih lumayan
- OpenRouter juga tidak bisa dipakai menjalankan Cyberpunk 2077 di 5K HDR dengan pengaturan maksimal
- Tulisan aslinya pada dasarnya menunjukkan skenario terbaik mutlak dibanding orang-orang yang terlalu tergila-gila menimbun Mac
  Jumlah orang seperti ini ternyata absurd banyaknya, yang menghabiskan lebih dari $10.000 untuk Mac Studio tetapi tetap mentok di bottleneck komputasi dan juga tidak punya banyak opsi yang lebih efisien daripada Gemma 4
Perusahaan AI frontier menjual dengan rugi
Bahkan jika mengesampingkan semua yang dikatakan u/bastawhiz[0], Claude, OpenAI, Gemini, dan lainnya benar-benar membakar ratusan miliar dolar sambil menjual sesuatu yang nilainya $1 hanya beberapa sen, dengan harapan menjadi yang terakhir bertahan
Kalau saya menghabiskan $10 untuk menanam jeruk lalu menjualnya seharga $1, tentu menanam sendiri akan terlihat lebih mahal. Model-model ini pada akhirnya hanya bisa makin mahal seiring waktu, dan mereka cuma ingin menguasai pasar sebelum berhenti menjual rugi besar-besaran
[0]: https://news.ycombinator.com/item?id=48168433
- Rasanya kecil kemungkinan begitu. Di OpenRouter ada banyak penyedia model terbuka, dan rasanya sulit percaya bahwa mereka rugi pada setiap token yang mereka jual
  Selain itu, ada juga alasan teknis mengapa inferensi menjadi jauh lebih efisien pada skala besar
- Blog itu membandingkan biaya menjalankan Gemma4 31B, tetapi di OpenRouter model ini disediakan bukan oleh perusahaan AI frontier melainkan oleh penyedia inferensi kecil yang nyaris tidak dikenal. Ini tampak seperti perbandingan yang cukup adil
- Meski begitu, efisiensi skala tetap bisa jauh lebih besar. Dengan beban kerja saya saat ini, saya tidak bisa menjaga model lokal tetap terpakai 98% selama 24 jam penuh, tetapi cloud besar bisa. Saya juga tidak bisa memberi daya server saya dengan arus searah, dan ada inefisiensi saat mengubah arus bolak-balik menjadi arus searah. Faktor-faktor seperti ini terus bertambah
- Itu tidak benar. Token API tidak dijual dengan rugi, dan perangkat keras makin efisien seiring waktu sehingga biaya penyediaan inferensi untuk model yang sama turun
  LLAMA 3.1 405B pada 2024 harganya $6/$12 per juta token, tetapi pada 2026 model yang sama menjadi $3/$3. Token GPT5.5 lebih mahal daripada 5.4 karena model paling cerdas pada titik waktu tertentu jauh lebih besar daripada sebelumnya. Tetapi dua tahun lagi, kemungkinan biaya menyediakan model seukuran GPT5.5 akan lebih murah daripada biaya GPT5.5 saat ini. Teknik distilasi efektif mengurangi jumlah parameter yang diperlukan untuk mencapai skor benchmark yang sama, jadi dua tahun lagi tingkat kecerdasan yang sama juga kemungkinan akan lebih murah
- Ada buktinya? CEO Anthropic mengatakan perusahaannya sudah untung, dan OpenAI juga mengatakan hal yang sama
Jika ingin model dense yang bagus, lebih baik pakai qwen3.6 27B. Lebih cepat juga, dan kalau Anda tidak percaya saat saya bilang model ini lebih pintar, harga OpenRouter saat dibandingkan dengan Gemma yang lebih besar, lebih lambat, dan kurang efisien memori, bisa bicara sendiri
Kalau ingin model yang lebih cepat, tinggal pakai qwen3.6 35B. Kalau model Gemma lebih cocok untuk pekerjaan Anda, gemma 4 26B juga bisa. Ada alasan kenapa orang-orang, termasuk saya, terus membicarakan keduanya, terutama 27B. Model itu cukup kecil untuk dijalankan dengan kecepatan yang layak, apalagi sekarang llama.cpp akhirnya punya dukungan resmi MTP bawaan, dan pada banyak beban kerja serta semua benchmark yang saya coba, model ini setara atau bahkan mengungguli model-model yang seharusnya tidak bisa dikalahkannya
Beberapa hari lalu saya bangun saat internet mati, lalu menjalankan 27B di pi, memberinya kata sandi router, dan memintanya mendiagnosis masalahnya. Saat saya kembali setelah mengambil kopi, sudah ada laporan lengkap termasuk usulan langkah penanganan. Saya suka OpenRouter dan memakainya untuk banyak hal, tetapi itu tidak lebih murah
Tentu semua ini bercampur dengan subjektivitas berdasarkan pengalaman pribadi setelah memakai semua model tersebut. Mungkin ada kasus di mana 31B Gemma unggul, tetapi saya belum menemukannya, dan saya sudah menjalankan keempat model yang disebut sejak beberapa jam setelah masing-masing dirilis untuk berbagai tugas. Bahkan di hermes saya sendiri, mengganti gemma 4 26B ke qwen3.5 9B justru memberi hasil yang lebih baik, dan itu bahkan belum seri 3.6 yang jauh lebih baik. Membuat analisis seperti ini tanpa memakai model yang saat ini dianggap state of the art di perangkat keras konsumen terasa seperti memakai data usang atau cherry-picking
- Betul. Qwen 3.6 45b(6 parameter) bisa jalan di RTX 5090 biasa, dan kalau Anda suka game mungkin Anda sudah memilikinya. Ini cukup layak untuk sebagian besar tugas generasi kode
  Demikian juga DeepSeek V4 Flash cukup terjangkau sebagai model lokal, dan dengan DwarfStar 4 Anda bahkan bisa menjalankannya dengan mudah di MacBook 96GB
  Membayar biaya inferensi itu sendiri bukan masalah, tetapi model lokal membuka kemungkinan yang cukup luar biasa seperti penggunaan sepenuhnya offline, pemrosesan data yang berisi informasi identitas pribadi atau data yang dilindungi hak istimewa hukum, dan pekerjaan yang sama sekali tidak perlu khawatir soal lonjakan tagihan
  Hal lain adalah Anda bisa membuat layanan yang Anda yakini akan terus berjalan 100% tanpa perlu cemas soal gangguan layanan atau penutupan. Model frontier saat ini memang punya masalah itu. Konfigurasi Qwen lokal saya sepenuhnya dapat diprediksi, dan selama saya masih bisa mendapatkan perangkat keras untuk menjalankannya, ia akan terus bisa dipakai
  Strategi yang masuk akal adalah memakai keduanya. Siapkan alat inferensi lokal, lalu gabungkan model cloud murah dan mahal. Gunakan GPT-5.5 dan Opus-4.7 untuk hal yang memang mereka kuasai seperti tugas penalaran yang sulit, pakai yang terakhir dengan akal-akalan langganan Claude agar lebih murah, gunakan DeepSeek V4 Pro untuk tugas yang sedikit kurang sulit, V4 Flash untuk sebagian besar generasi kode, dan model lokal untuk pekerjaan yang memang membutuhkannya
- Saya setuju dengan argumen utamanya, tetapi saya tidak yakin pembacaan harga qwen3.6 27B seperti itu benar
  Para penyedia itu tampaknya mengikuti harga dasar Alibaba untuk 27B Dense, dan menurut saya pribadi itu agak mahal. Bisa jadi karena model Qwen kurang efisien dalam inferensi dibanding model frontier atau Gemma, dan biaya menyediakan panjang sekuens yang panjang juga mahal
- Saya penasaran bagaimana Anda menilai model-model yang sudah dikuantisasi satu sama lain. Saya belum menemukan benchmark yang benar-benar saya suka
  Contoh debugging dengan 27B itu bagus. Setelah membeli Mac dengan memori 4x lebih besar, saya melihat keberhasilan yang mirip, dan Qwen 35B A3B tiba-tiba menjadi sangat bagus. Versi 9B di laptop sulit dibilang bagus
Ada banyak komentar di sini yang membahas masalah analisis pada tulisan asli, tetapi untuk kesimpulan yang lebih luas, saya rasa banyak di antaranya mendekati “perbedaan tanpa arti”. Di luar privasi, jika murni melihat biaya dan performa, pengembang individu lebih baik memakai layanan hosted daripada self-hosting
Di tempat kerja, biaya token dibayar pemberi kerja, dan di luar kerja, kebanyakan pengembang merasa langganan bulanan $20/$100/$200 dari penyedia pilihan mereka sudah cukup. Tidak banyak pengembang yang benar-benar masuk ke kondisi di mana menjalankan model lokal masuk akal dari sudut pandang biaya terhadap performa
Yang lebih penting, menyiapkan model lokal dalam praktiknya tampak lebih dekat ke hobi, pembelajaran, atau kendali privasi daripada penghematan biaya atau peningkatan produktivitas
- Komputasi ala mainframe yang diimpikan para pembuat model tidak akan kembali, apa pun yang diinginkan OpenAI, Google, Anthropic, atau Microsoft. Terlalu banyak barbar teknologi pintar yang ingin masuk, dan mereka tidak akan puas kembali ke era terminal komputer
  Komputer pribadi dulu mengakhiri era terminal sebelumnya, sebagian besar perusahaan saat itu sudah lenyap, dan hanya IBM serta beberapa perusahaan sisa yang masih bertahan, itu pun tinggal bayang-bayang masa lalunya
Penulis hanya membandingkan biaya token output, tetapi pada beban kerja agentik yang umum, token input adalah bagian besar dari biaya. Pada inferensi lokal, token input pada dasarnya gratis
Biaya implisitnya hanya berupa waktu tunggu token pertama yang lebih lama, konsumsi daya yang lebih tinggi, dan kecepatan token output yang lebih rendah
- Betul, poin itu benar-benar meruntuhkan argumen penulis
  Saya melihat beberapa sesi agent acak di aktivitas OpenRouter saya, dan biaya inputnya 10x lebih besar daripada biaya output. Prompt caching OpenRouter rumit dan sulit diandalkan, tetapi pada llama-cpp di perangkat keras lokal, hampir gratis untuk sebagian besar kasus
- Bahkan jika mengabaikan caching yang lebih baik di setup lokal, perangkat keras Mac sering memproses token input sekitar 10x lebih cepat daripada token output. Di OpenRouter, pada model yang sama, selisihnya tampak sekitar 2x
Kalau dilakukan dengan cerdas, tidak juga. MacBook M5 Max 128GB memang laptop premium seharga $6.000, tetapi bisa melakukan banyak hal dan menjadi mesin utama yang bagus untuk dipakai sepanjang hari
Selain itu, Anda bisa menjalankan DeepSeek V4 Flash untuk menangani pekerjaan lokal yang tidak sepele tanpa sensor atau pembatasan, tanpa koneksi internet, dan dengan data pribadi yang sangat sensitif. Itu transaksi yang bagus. Jika Anda membeli dual Mac Studio 512GB seharga $25.000 demi meninggalkan OpenAI dan kawan-kawan, Anda akan kecewa baik dari sisi performa maupun biaya
- Pilihan cerdasnya adalah membeli MacBook sekitar 48GB untuk penggunaan harian, lalu menganggarkan sekitar $800 per tahun untuk langganan AI atau token. Pada akhirnya biayanya akan berada di kisaran yang sama
  Sebagai penulis blog, saya menulis ini dari MacBook M5 Max 128GB
- M4 Max 128GB saya pada akhirnya menjadi pilihan yang cukup masuk akal. Saya memakainya untuk editing video, pelatihan model machine learning, menjalankan model AI terbuka berukuran besar, pemodelan 3D, rendering, dan pekerjaan CAD
  Saya memang tidak melakukan semua itu 100% sepanjang waktu. Saya menjalankan pelatihan machine learning semalaman dan memeriksa hasilnya pagi hari, menjadikannya semacam server selama jam kerja untuk menjalankan model lokal, lalu memakainya untuk editing video dan pemodelan 3D di waktu pribadi. Ini mesin yang luar biasa serbaguna, dan semua itu dilakukan sambil menjaga data tetap berada di perangkat dan alur kerja sepenuhnya dalam kendali saya
- Ini rahasia untuk orang HN, tetapi beberapa model seperti ini bahkan bisa berjalan di rpi5 seharga $200 atau mini PC AMD seharga $500
  Rahasia umum lainnya adalah beberapa perusahaan memberi puluhan ribu token gratis dengan model yang cukup bagus seperti Gemini 3.1 atau GLM 4.6
Tulisan aslinya membandingkan Gemma di sana-sini, tetapi kesimpulannya justru mengatakan lebih baik membayar Anthropic. Anthropic mengenakan $15 per juta token output, yang bahkan menurut standar OpenRouter pun 30–35x lebih mahal
Ini seperti membandingkan sepeda listrik di rumah dengan sewa sepeda listrik, lalu menyimpulkan bahwa karena kecepatannya mirip, maka sebaiknya menyewa Toyota. Melelahkan melihat tulisan buruk mendapat begitu banyak perhatian
Tulisan itu membuat kesalahan besar di bagian akhir sehingga benar-benar keliru. Anda tidak bisa hanya melihat token yang dihasilkan lalu menyebut itu sebagai biaya. Dalam coding agentik, ada banyak giliran interaksi, jadi Anda membayar bukan hanya token output tetapi juga semua token input yang dikirim setiap kali. Bahkan kalau ada cache dan jadi 10x lebih murah pun tetap sama. Jadi perhitungan ini sama sekali tidak merepresentasikan biaya API dengan akurat
Kedua, jika Anda memakai tim agent, Anda bisa sangat meningkatkan jumlah token lokal yang dihasilkan. Satu percakapan terikat pada bandwidth memori sehingga tidak sepenuhnya memakai sumber daya komputasi. Jika Anda bisa membatch token dari beberapa agent, Anda bisa dengan mudah meningkatkan throughput token 5x
Saya sama sekali tidak bisa bergantung pada AI cloud. Bagi saya, privasi dan kendali penuh jauh lebih penting daripada kecepatan atau model paling mutakhir
- Ada juga prediktabilitas, ketahanan, dan kedaulatan. Anda tidak perlu khawatir gangguan milik orang lain, lonjakan permintaan tak terduga yang mengganggu Anda pada saat yang buruk, seseorang yang melemahkan model Anda, biaya yang berubah tanpa bisa diprediksi, atau tagihan besar akibat kesalahan yang tak terduga
  Bagi saya ini satu kategori dengan panel surya atap. Kalau Anda termasuk tipe orang yang mendapatkan ketenangan batin dari kendali atas infrastruktur dan berkurangnya ketergantungan, maka ekonominya tidak harus selalu sempurna secara ketat