1 poin oleh GN⁺ 2026-03-11 | 1 komentar | Bagikan ke WhatsApp
  • Perhitungan $5.000 untuk paket Claude Code Max yang dikutip Forbes sebenarnya didasarkan pada harga ritel API, bukan biaya komputasi nyata
  • Jika dibandingkan dengan harga model Qwen 3.5 397B dan Kimi K2.5 di OpenRouter, model dengan skala serupa beroperasi pada sekitar sepersepuluh tarif API Anthropic
  • Dengan patokan ini, perkiraan biaya nyata Anthropic hanya sekitar $500, artinya kerugiannya hanya sekitar $300 per bulan untuk sebagian kecil pengguna berat
  • Sebagian besar pengguna tidak mencapai batas token, dan berdasarkan penggunaan rata-rata, model ini berada di titik impas atau tetap menghasilkan laba
  • Anggapan bahwa biaya inferensi AI terlalu tinggi adalah kesalahpahaman, dan hal ini dipakai untuk membenarkan margin API yang tinggi dari perusahaan AI besar

Verifikasi klaim $5.000 dari Forbes

  • Forbes, dalam artikel terkait Cursor, mengutip bahwa paket $200 dari Anthropic memungkinkan penggunaan komputasi senilai $5.000
    • Kutipan tersebut diperkenalkan sebagai pernyataan dari “seseorang yang melihat analisis pola penggunaan komputasi perusahaan”
  • Angka ini dihitung berdasarkan harga ritel API, sehingga berbeda dari biaya komputasi sebenarnya
  • Tarif API Opus 4.6 milik Anthropic ditetapkan sebesar $5 per 1 juta token input dan $25 per 1 juta token output
    • Dengan tarif ini, pengguna berat memang bisa mencapai penggunaan API senilai $5.000 per bulan

Perkiraan biaya komputasi sebenarnya

  • Di OpenRouter, model Qwen 3.5 397B-A17B dengan skala serupa dihargai sekitar $0,39 per 1 juta token input dan $2,34 untuk output
    • Model Kimi K2.5 bahkan lebih murah, yaitu $0,45 untuk input dan $2,25 untuk output
  • Ini berarti harganya sekitar 10 kali lebih murah dibanding tarif API Anthropic
  • Biaya token cache juga berbeda dengan rasio yang serupa
    • Contoh: biaya pembacaan cache Kimi K2.5 di DeepInfra adalah $0,07/MTok, sementara Anthropic mengenakan $0,50/MTok
  • Karena itu, biaya komputasi sebenarnya dapat diperkirakan sekitar 10% dari tarif API

Biaya nyata pengguna Claude Code Max

  • Untuk pengguna yang memakai token senilai $5.000 berdasarkan tarif API, biaya nyata yang ditanggung hanya sekitar $500
    • Dalam kasus ini, Anthropic menanggung rugi sekitar $300 per bulan
  • Namun, Anthropic menyatakan bahwa kurang dari 5% pengguna yang benar-benar mencapai batas token
    • Pengguna biasa rata-rata memakai kurang dari 50% kuota token
  • Menurut data /cost dari Anthropic, rata-rata pengguna menghasilkan penggunaan API sekitar $6 per hari, dan 90% pengguna berada di bawah $12
    • Berdasarkan biaya nyata, ini setara sekitar $18 per bulan, sehingga masih berpotensi menguntungkan dibanding biaya langganan $20~200

Perbedaan biaya dengan Cursor

  • Angka $5.000 berasal dari hasil analisis internal Cursor
    • Cursor harus menggunakan Opus 4.6 dari Anthropic dengan tarif API ritel
  • Karena itu, dari sudut pandang Cursor, pengguna intensif memang bisa menimbulkan biaya $5.000 per bulan per orang
    • Sementara biaya nyata Anthropic sendiri hanya sekitar $500
  • Cursor menghadapi kesulitan karena para developer lebih menyukai model Anthropic

Struktur keuntungan Anthropic dan kesalahpahaman yang muncul

  • Anthropic secara keseluruhan masih merugi karena biaya pelatihan, biaya tenaga kerja, dan investasi komputasi skala besar
  • Namun, biaya inferensi per token kemungkinan memiliki profitabilitas yang tinggi
  • Anggapan bahwa “inferensi AI adalah bisnis yang merugi” digunakan untuk membenarkan margin harga API yang berlebihan dan menghambat persaingan
  • Untuk memahami ekonomi inferensi yang sebenarnya, acuan yang lebih realistis adalah harga model publik di OpenRouter
    • Harga tersebut hanya merepresentasikan sebagian kecil dari tarif API perusahaan AI besar

1 komentar

 
GN⁺ 2026-03-11
Komentar Hacker News
  • Membandingkan Qwen 3.5 397B-A17B dengan model Anthropic adalah perbandingan yang ngawur
    Model Tiongkok seperti Qwen atau DeepSeek dikenal lebih dari 10x lebih efisien dibanding Anthropic
    Ini juga menjelaskan mengapa selisih antara harga OpenRouter dan harga resmi tidak terlalu besar. Selain itu, juga tidak jelas teknik quantization apa yang digunakan penyedia OpenRouter. Bisa jadi sebenarnya efisiensinya 100x
    Tentu saja, tidak semua pengguna memakai paket sampai batas maksimum, jadi kerugiannya bukan 5.000 dolar per pengguna

    • Itu argumen melingkar. Satu-satunya alasan orang percaya model Tiongkok 10x lebih efisien adalah karena harganya 10x lebih murah
      Jika melihat angka t/s Opus 4.5 di Amazon Bedrock dan model-model Tiongkok, levelnya mirip, jadi jumlah parameter aktif yang sebenarnya juga serupa
      Di OpenRouter, kita juga bisa memilih langsung penyedia BF16 atau Q8
    • Setuju, tapi kemungkinan Opus 4.6 adalah model yang 10x lebih besar. GPT-4 sudah model 1.6T dan Llama 4 juga jauh lebih besar
      Perusahaan Tiongkok kekurangan GPU, tetapi mereka telah menghasilkan banyak inovasi dalam efisiensi inferensi. Liang, CEO DeepSeek, juga ada dalam daftar penulis makalah terkait
    • Membandingkan model open source seperti Qwen dengan Anthropic itu tidak ada artinya
      Anthropic tidak pernah mengungkap arsitektur model atau jumlah parameternya
      Kebanyakan model open source menurunkan biaya komputasi dengan mendistil model lain atau memakai MoE
      Tulisan blog yang menjadikan Qwen sebagai tolok ukur sulit dipercaya
    • Opus mungkin mencapai biaya lebih rendah dengan memanfaatkan TPU
    • Di bagian penyedia OpenRouter, informasi quantization memang ditampilkan
  • Menurut artikel aslinya, tahun lalu Cursor memperkirakan langganan Claude Code seharga 200 dolar per bulan memakai komputasi hingga 2.000 dolar
    Sekarang subsidinya disebut makin besar, sehingga paket yang sama bisa mengonsumsi komputasi sekitar 5.000 dolar

    • Ada reaksi seperti, “Ini informasi yang mengubah segalanya”
  • Banyak orang percaya OpenAI dan Anthropic menjual token sambil rugi, tetapi bukti nyatanya hampir tidak ada
    Meme ini menyebar karena artikel Forbes yang tidak akurat. Artikel itu bahkan tidak memahami perbedaan antara biaya API dan biaya komputasi

    • Tetapi, juga sulit memastikan dengan tegas bahwa memang tidak ada bukti penjualan rugi
      Jika melihat Anthropic membatasi penggunaan di luar CC, serta batas pengeluaran API sebesar 5.000 dolar, ada kemungkinan profitabilitasnya memang rendah
    • Ada juga argumen, “memangnya perusahaan yang hanya menjual token bisa tidak rugi?”
      Biaya riset, pelatihan, infrastruktur, dan tenaga kerja semuanya harus dimasukkan ke biaya pembuatan token
      Harga murah model open-weight terjadi karena dumping untuk merebut pangsa pasar, dan biaya sebenarnya lebih tinggi
      Pada akhirnya, struktur seperti ini tidak akan bertahan lama
    • Yang lebih penting daripada apakah Anthropic rugi per token adalah berapa besar biaya pelatihan
      Jika model tidak terus dilatih, nilai token akan turun
    • Sebagai referensi, dokumen terkait ada di sini
  • Jika tim kami memakai Claude Code lewat API, biayanya akan 200 ribu dolar per bulan, tetapi kenyataannya kami hanya membayar 1.400 dolar per bulan lewat langganan Max
    Itu setara sekitar 50 ribu dolar per pengguna, tetapi jika melihat jumlah token JSON, sebagian besar adalah request yang di-cache, jadi biaya sebenarnya kemungkinan jauh lebih rendah

    • Penasaran pekerjaan seperti apa yang bisa didistribusikan seefisien itu. Saya juga sering memakai Claude, tetapi cepat sekali mentok
    • Gemini CLI menampilkan tingkat penghematan cache per sesi, biasanya sekitar 90%
    • Saya juga menjalankan beberapa agen Claude, dan 85% token input adalah pembacaan cache
      Biaya sebenarnya mungkin di kisaran 25 ribu–30 ribu dolar. Estimasi 5.000 dolar dari Forbes terlalu dibesar-besarkan
    • Dengan npx ccusage, kita bisa memeriksa log lokal untuk menghitung biaya berdasarkan API
    • Tapi saya penasaran apakah memakai paket Max untuk keperluan perusahaan bukan pelanggaran syarat layanan
  • Jika komputasi Anthropic benar-benar sudah jenuh penuh, maka power user Claude Code bisa menimbulkan biaya peluang 5.000 dolar per pengguna
    Tetapi perbandingan seperti ini sama tidak tepatnya dengan membandingkan jumlah gear Rolex dan jam tanpa merek

    • Biaya peluang bukan biaya nyata. Intinya adalah apakah Anthropic memang sudah jenuh sampai tidak bisa menjual langganan lagi
    • Semakin penuh pemanfaatan GPU farm, justru biaya per unit bisa turun karena efek batching
    • Industri hiburan juga sering memakai istilah “biaya peluang”, tetapi kenyataannya konsumsi justru menurun
      Anthropic pun sama, karena pengguna bisa mulai meragukan kualitas yang tidak pasti atau beralih ke penagihan berbasis API
    • Ada juga candaan, “semoga situasi saya yang bisa memakai Opus sepuasnya dengan langganan 100 dolar tetap bertahan”
  • Biaya inferensi dan margin keuntungan sangat berbeda antara model open-weight dan penyedia cloud besar
    Mirip dengan perbedaan antara biaya R&D industri farmasi dan biaya produksi obat generik
    Margin inferensi OpenAI diperkirakan sekitar 70%, Anthropic 40–90%
    Artikel terkait: Phemex, SaaStr, The Information, Investing.com

    • Ada pendapat agar tidak terlalu mudah memakai kata “profit”
      Secara akuntansi, pendapatan per model mungkin sudah menutup biaya pelatihan
      Tetapi dari sisi arus kas, perusahaan itu masih belum cashflow positive
      Jika tidak memahami perbedaan ini, orang akan meremehkan seluruh industri AI
  • Belum yakin seberapa besar ukuran model Opus 4.6
    Diperkirakan jauh lebih besar dari Qwen397B

    • Jika melihat Musk mengatakan Grok punya triliunan parameter, Opus juga mungkin ada di level itu
      Anthropic mungkin memang menghasilkan uang dari API, tetapi margin 90% tampaknya tidak realistis
    • Di OpenRouter, DeepSeek v3.2 (685B/37B active) dihargai $0.26/0.40, dan Kimi K2.5 (1T/32B active) dihargai $0.45/2.25
    • Jika ditanya ke pakar, mereka mungkin akan memperkirakan Opus punya 1–2 triliun parameter
  • Cache memang nyaris gratis, tetapi sebenarnya tidak sepenuhnya tanpa biaya
    Jika biaya token cache dikeluarkan, pemakaian komputasi nyata dari langganan 200 dolar turun menjadi sekitar 800 dolar
    Sebagian besar komputasi kemungkinan besar sedang menganggur

    • Tetapi cache tetap memakan RAM terus-menerus, jadi tidak sepenuhnya gratis
      Jika cache tidak kena, maka muncul biaya peluang sebesar itu
    • Karena cache memungkinkan inferensi dijual ke lebih banyak pengguna dengan harga premium, pada dasarnya ini adalah alat memaksimalkan pendapatan
    • Jika itu bukan komputasi menganggur, sumber daya tersebut juga bisa dipakai untuk pelatihan model atau eksperimen riset
  • Cursor harus memakai Opus 4.6 dengan harga API retail Anthropic, jadi bisa menghabiskan 5.000 dolar per bulan untuk setiap power user
    Sebaliknya, biaya nyata Anthropic kemungkinan hanya di kisaran 500 dolar
    Saya baru-baru ini mendengar strategi cloud agent Cursor di podcast Swix, dan hambatan masuknya makin rendah

  • Langganan Claude lebih mirip konsep spot instance
    API adalah layanan on-demand, dan prioritas ada pada API
    Komputasi yang tersisa dialokasikan ke pengguna langganan, dan jika kapasitas kurang maka akan diarahkan ke model murah yang sudah di-quantize
    Langganan seperti ini memanfaatkan sumber daya menganggur, dan juga berperan meningkatkan kualitas pelatihan model lewat workflow yang lebih bisa diprediksi
    Saya sudah mencoba Qwen Code, Codex, dan Claude; Codex 2x lebih baik daripada Qwen, dan Claude 2x lebih baik daripada Codex
    Karena itu, saya memperkirakan Claude Opus akan 4–5x lebih mahal daripada Qwen Code

    • Klaim bahwa “Claude 2x lebih baik daripada Codex” saat ini tidak benar
    • Bagian “akan diarahkan ke model murah saat kapasitas kurang” juga belum pernah diumumkan secara resmi