- Perhitungan $5.000 untuk paket Claude Code Max yang dikutip Forbes sebenarnya didasarkan pada harga ritel API, bukan biaya komputasi nyata
- Jika dibandingkan dengan harga model Qwen 3.5 397B dan Kimi K2.5 di OpenRouter, model dengan skala serupa beroperasi pada sekitar sepersepuluh tarif API Anthropic
- Dengan patokan ini, perkiraan biaya nyata Anthropic hanya sekitar $500, artinya kerugiannya hanya sekitar $300 per bulan untuk sebagian kecil pengguna berat
- Sebagian besar pengguna tidak mencapai batas token, dan berdasarkan penggunaan rata-rata, model ini berada di titik impas atau tetap menghasilkan laba
- Anggapan bahwa biaya inferensi AI terlalu tinggi adalah kesalahpahaman, dan hal ini dipakai untuk membenarkan margin API yang tinggi dari perusahaan AI besar
Verifikasi klaim $5.000 dari Forbes
- Forbes, dalam artikel terkait Cursor, mengutip bahwa paket $200 dari Anthropic memungkinkan penggunaan komputasi senilai $5.000
- Kutipan tersebut diperkenalkan sebagai pernyataan dari “seseorang yang melihat analisis pola penggunaan komputasi perusahaan”
- Angka ini dihitung berdasarkan harga ritel API, sehingga berbeda dari biaya komputasi sebenarnya
- Tarif API Opus 4.6 milik Anthropic ditetapkan sebesar $5 per 1 juta token input dan $25 per 1 juta token output
- Dengan tarif ini, pengguna berat memang bisa mencapai penggunaan API senilai $5.000 per bulan
Perkiraan biaya komputasi sebenarnya
- Di OpenRouter, model Qwen 3.5 397B-A17B dengan skala serupa dihargai sekitar $0,39 per 1 juta token input dan $2,34 untuk output
- Model Kimi K2.5 bahkan lebih murah, yaitu $0,45 untuk input dan $2,25 untuk output
- Ini berarti harganya sekitar 10 kali lebih murah dibanding tarif API Anthropic
- Biaya token cache juga berbeda dengan rasio yang serupa
- Contoh: biaya pembacaan cache Kimi K2.5 di DeepInfra adalah $0,07/MTok, sementara Anthropic mengenakan $0,50/MTok
- Karena itu, biaya komputasi sebenarnya dapat diperkirakan sekitar 10% dari tarif API
Biaya nyata pengguna Claude Code Max
- Untuk pengguna yang memakai token senilai $5.000 berdasarkan tarif API, biaya nyata yang ditanggung hanya sekitar $500
- Dalam kasus ini, Anthropic menanggung rugi sekitar $300 per bulan
- Namun, Anthropic menyatakan bahwa kurang dari 5% pengguna yang benar-benar mencapai batas token
- Pengguna biasa rata-rata memakai kurang dari 50% kuota token
- Menurut data
/cost dari Anthropic, rata-rata pengguna menghasilkan penggunaan API sekitar $6 per hari, dan 90% pengguna berada di bawah $12
- Berdasarkan biaya nyata, ini setara sekitar $18 per bulan, sehingga masih berpotensi menguntungkan dibanding biaya langganan $20~200
Perbedaan biaya dengan Cursor
- Angka $5.000 berasal dari hasil analisis internal Cursor
- Cursor harus menggunakan Opus 4.6 dari Anthropic dengan tarif API ritel
- Karena itu, dari sudut pandang Cursor, pengguna intensif memang bisa menimbulkan biaya $5.000 per bulan per orang
- Sementara biaya nyata Anthropic sendiri hanya sekitar $500
- Cursor menghadapi kesulitan karena para developer lebih menyukai model Anthropic
Struktur keuntungan Anthropic dan kesalahpahaman yang muncul
- Anthropic secara keseluruhan masih merugi karena biaya pelatihan, biaya tenaga kerja, dan investasi komputasi skala besar
- Namun, biaya inferensi per token kemungkinan memiliki profitabilitas yang tinggi
- Anggapan bahwa “inferensi AI adalah bisnis yang merugi” digunakan untuk membenarkan margin harga API yang berlebihan dan menghambat persaingan
- Untuk memahami ekonomi inferensi yang sebenarnya, acuan yang lebih realistis adalah harga model publik di OpenRouter
- Harga tersebut hanya merepresentasikan sebagian kecil dari tarif API perusahaan AI besar
1 komentar
Komentar Hacker News
Membandingkan Qwen 3.5 397B-A17B dengan model Anthropic adalah perbandingan yang ngawur
Model Tiongkok seperti Qwen atau DeepSeek dikenal lebih dari 10x lebih efisien dibanding Anthropic
Ini juga menjelaskan mengapa selisih antara harga OpenRouter dan harga resmi tidak terlalu besar. Selain itu, juga tidak jelas teknik quantization apa yang digunakan penyedia OpenRouter. Bisa jadi sebenarnya efisiensinya 100x
Tentu saja, tidak semua pengguna memakai paket sampai batas maksimum, jadi kerugiannya bukan 5.000 dolar per pengguna
Jika melihat angka t/s Opus 4.5 di Amazon Bedrock dan model-model Tiongkok, levelnya mirip, jadi jumlah parameter aktif yang sebenarnya juga serupa
Di OpenRouter, kita juga bisa memilih langsung penyedia BF16 atau Q8
Perusahaan Tiongkok kekurangan GPU, tetapi mereka telah menghasilkan banyak inovasi dalam efisiensi inferensi. Liang, CEO DeepSeek, juga ada dalam daftar penulis makalah terkait
Anthropic tidak pernah mengungkap arsitektur model atau jumlah parameternya
Kebanyakan model open source menurunkan biaya komputasi dengan mendistil model lain atau memakai MoE
Tulisan blog yang menjadikan Qwen sebagai tolok ukur sulit dipercaya
Menurut artikel aslinya, tahun lalu Cursor memperkirakan langganan Claude Code seharga 200 dolar per bulan memakai komputasi hingga 2.000 dolar
Sekarang subsidinya disebut makin besar, sehingga paket yang sama bisa mengonsumsi komputasi sekitar 5.000 dolar
Banyak orang percaya OpenAI dan Anthropic menjual token sambil rugi, tetapi bukti nyatanya hampir tidak ada
Meme ini menyebar karena artikel Forbes yang tidak akurat. Artikel itu bahkan tidak memahami perbedaan antara biaya API dan biaya komputasi
Jika melihat Anthropic membatasi penggunaan di luar CC, serta batas pengeluaran API sebesar 5.000 dolar, ada kemungkinan profitabilitasnya memang rendah
Biaya riset, pelatihan, infrastruktur, dan tenaga kerja semuanya harus dimasukkan ke biaya pembuatan token
Harga murah model open-weight terjadi karena dumping untuk merebut pangsa pasar, dan biaya sebenarnya lebih tinggi
Pada akhirnya, struktur seperti ini tidak akan bertahan lama
Jika model tidak terus dilatih, nilai token akan turun
Jika tim kami memakai Claude Code lewat API, biayanya akan 200 ribu dolar per bulan, tetapi kenyataannya kami hanya membayar 1.400 dolar per bulan lewat langganan Max
Itu setara sekitar 50 ribu dolar per pengguna, tetapi jika melihat jumlah token JSON, sebagian besar adalah request yang di-cache, jadi biaya sebenarnya kemungkinan jauh lebih rendah
Biaya sebenarnya mungkin di kisaran 25 ribu–30 ribu dolar. Estimasi 5.000 dolar dari Forbes terlalu dibesar-besarkan
npx ccusage, kita bisa memeriksa log lokal untuk menghitung biaya berdasarkan APIJika komputasi Anthropic benar-benar sudah jenuh penuh, maka power user Claude Code bisa menimbulkan biaya peluang 5.000 dolar per pengguna
Tetapi perbandingan seperti ini sama tidak tepatnya dengan membandingkan jumlah gear Rolex dan jam tanpa merek
Anthropic pun sama, karena pengguna bisa mulai meragukan kualitas yang tidak pasti atau beralih ke penagihan berbasis API
Biaya inferensi dan margin keuntungan sangat berbeda antara model open-weight dan penyedia cloud besar
Mirip dengan perbedaan antara biaya R&D industri farmasi dan biaya produksi obat generik
Margin inferensi OpenAI diperkirakan sekitar 70%, Anthropic 40–90%
Artikel terkait: Phemex, SaaStr, The Information, Investing.com
Secara akuntansi, pendapatan per model mungkin sudah menutup biaya pelatihan
Tetapi dari sisi arus kas, perusahaan itu masih belum cashflow positive
Jika tidak memahami perbedaan ini, orang akan meremehkan seluruh industri AI
Belum yakin seberapa besar ukuran model Opus 4.6
Diperkirakan jauh lebih besar dari Qwen397B
Anthropic mungkin memang menghasilkan uang dari API, tetapi margin 90% tampaknya tidak realistis
Cache memang nyaris gratis, tetapi sebenarnya tidak sepenuhnya tanpa biaya
Jika biaya token cache dikeluarkan, pemakaian komputasi nyata dari langganan 200 dolar turun menjadi sekitar 800 dolar
Sebagian besar komputasi kemungkinan besar sedang menganggur
Jika cache tidak kena, maka muncul biaya peluang sebesar itu
Cursor harus memakai Opus 4.6 dengan harga API retail Anthropic, jadi bisa menghabiskan 5.000 dolar per bulan untuk setiap power user
Sebaliknya, biaya nyata Anthropic kemungkinan hanya di kisaran 500 dolar
Saya baru-baru ini mendengar strategi cloud agent Cursor di podcast Swix, dan hambatan masuknya makin rendah
Langganan Claude lebih mirip konsep spot instance
API adalah layanan on-demand, dan prioritas ada pada API
Komputasi yang tersisa dialokasikan ke pengguna langganan, dan jika kapasitas kurang maka akan diarahkan ke model murah yang sudah di-quantize
Langganan seperti ini memanfaatkan sumber daya menganggur, dan juga berperan meningkatkan kualitas pelatihan model lewat workflow yang lebih bisa diprediksi
Saya sudah mencoba Qwen Code, Codex, dan Claude; Codex 2x lebih baik daripada Qwen, dan Claude 2x lebih baik daripada Codex
Karena itu, saya memperkirakan Claude Opus akan 4–5x lebih mahal daripada Qwen Code