Apakah OpenAI dan Anthropic Sebenarnya Merugi dalam Inference
(martinalderson.com)- Bertentangan dengan klaim yang umum diajukan di industri, biaya inference AI lebih murah dari yang dibayangkan dan justru dapat menjamin profitabilitas yang tinggi
- Menurut analisis, biaya token input pada praktiknya nyaris bisa diabaikan (sekitar $0.005 per satu juta token), sementara biaya token output lebih dari $3 per satu juta token, sehingga muncul selisih 1000x
- Paket langganan konsumen (misalnya ChatGPT Pro $20/bulan) menghasilkan 5~6x dibanding biaya inference riil, sedangkan paket untuk developer (Claude Code) 10~20x, sehingga profitabilitasnya sangat tinggi
- Paket harga API menyisakan margin 80~95% atau lebih dibanding biaya pokok, membentuk struktur laba yang mirip perangkat lunak
- Pada akhirnya, inference bukanlah “lubang uang”, melainkan bisnis dengan profitabilitas sangat tinggi bila struktur ketimpangan input terhadap output dimanfaatkan dengan baik
Pendahuluan
- Ada klaim bahwa AI, khususnya inference, menimbulkan biaya yang sangat besar, tetapi analisis ekonomi dengan sudut pandang skeptis tetap diperlukan
- Penulis tidak memiliki pengalaman mengoperasikan model frontier skala besar, tetapi berangkat dari pemahaman tentang layanan cloud ber-throughput tinggi dan struktur biaya bare metal dibanding hyperscaler
- Analisis ini berada pada tingkat perhitungan kasar (napkin math), dengan fokus pada biaya komputasi murni
- Biaya satu GPU H100 ditetapkan $2 per jam; perusahaan AI besar kemungkinan bisa mendapatkannya lebih murah dari ini
Asumsi
- Analisis hanya berfokus pada biaya komputasi murni, dan menguji keberlanjutan tanpa perbaikan model, hanya berdasarkan kegunaan model saat ini
- Menggunakan arsitektur DeepSeek R1 (total 671B parameter, 37B aktif), dengan asumsi performa serupa Claude Sonnet 4 dan GPT-5
Lingkungan produksi dengan H100
- Konfigurasi produksi: klaster 72 GPU H100, biaya $144 per jam
- Ukuran batch 32, pemrosesan paralel tensor pada 8 GPU per grup sehingga 9 instans model berjalan bersamaan
- Tahap prefill (pemrosesan input): berdasarkan bandwidth HBM H100 sebesar 3.35TB/s, dapat memproses 45 forward pass per detik
- Dengan 32 sekuens per batch (rata-rata 1.000 token), throughput mencapai 1,44 juta token input per detik, atau 46,8 miliar token input per jam
- Pada model MoE, throughput bisa turun 30~50% karena expert routing, tetapi dampaknya minimal berkat pemrosesan paralel yang efisien
- Tahap decode (generasi output): token dihasilkan secara berurutan, 1.440 token output per detik, atau 46,7 juta token output per jam
- Perhitungan biaya murni per token
- Token input: $144 ÷ 46,8 miliar = sekitar $0.003 per satu juta token
- Token output: $144 ÷ 46,7 juta = sekitar $3.08 per satu juta token
- Asimetri: selisih biaya antara pemrosesan input dan generasi output sekitar 1000x
Bottleneck komputasi
- Secara umum, bandwidth memori adalah bottleneck, tetapi pada sekuens konteks panjang 128k+ operasi attention menjadi bottleneck sehingga biaya naik 2~10x
- Claude Code mempertahankan batas 200k token untuk menjaga rezim murah yang berpusat pada memori, dan menghindari skenario mahal yang berpusat pada komputasi
- Biaya tambahan untuk jendela konteks panjang mencerminkan perubahan ekonomi ini
Ekonomi pengguna nyata
- Paket konsumen ($20/bulan ChatGPT Pro): 100 ribu token per hari (70% input, 30% output), biaya nyata sekitar $3/bulan
- Margin OpenAI: 5~6x
- Penggunaan developer (Claude Code Max 5, $100/bulan): 2 juta input dan 30 ribu token output per hari, biaya nyata sekitar $4.92/bulan, margin 20.3x
- Max 10 ($200/bulan): 10 juta input dan 100 ribu token output per hari, biaya nyata sekitar $16.89/bulan, margin 11.8x
- Agen coding memaksimalkan ekonomi karena pola penggunaan yang berpusat pada input (murah)
- Margin laba API: dibanding harga saat ini ($3/15 per satu juta token) dengan biaya nyata ($0.01/3), terdapat margin 80~95%
Kesimpulan
- Analisis ini didasarkan pada berbagai asumsi dan ada kemungkinan galat, tetapi bahkan dengan asumsi selisih 3x pun profitabilitasnya tetap tinggi
- Pemrosesan input murah, sekitar $0.005 per satu juta token, sementara generasi output $3+ dengan selisih seribu kali
- Struktur asimetris biaya token input dan output adalah inti persoalan, dan layanan yang memanfaatkannya dengan baik bisa mencapai profitabilitas tinggi
- Beban kerja dengan porsi input besar (asisten coding, analisis dokumen, riset, dll.) → struktur biaya hampir gratis, dengan profitabilitas sangat tinggi
- Beban kerja dengan porsi output besar (misalnya generasi video) → input sedikit tetapi output jutaan token, sehingga struktur biaya kurang menguntungkan dan harga mahal menjadi tak terhindarkan
- Klaim bahwa “inference AI terlalu mahal hingga tidak berkelanjutan” tidak sesuai dengan struktur biaya nyata. Ini bisa jadi merupakan strategi penekanan persaingan dari pemain besar yang sudah ada. Struktur marginnya sendiri pada praktiknya sudah sangat kokoh
- Seperti pembesaran biaya cloud computing di masa lalu yang membenarkan laba berlebih Big Tech, dalam diskusi biaya inference juga ada risiko bekerjanya “pemasaran ketakutan biaya” yang berlebihan
- Perlu pendekatan berbasis fakta terhadap struktur biaya
1 komentar
Pendapat Hacker News
Perhitungan matematis dalam tulisan ini salah dalam banyak hal
Khususnya, asumsi bahwa tahap prefill terikat oleh bandwidth itu keliru
Jika MFU yang dihitung penulis diurai, hasilnya 13 PFLOPS/s, yang berarti 7 kali kinerja maksimum perangkat keras nyata, jadi angka itu mustahil
Asumsi seperti 32 permintaan simultan, batas 8 GPU, dan hanya operasi attention yang menjadi bottleneck juga semuanya premis yang salah
Disayangkan bahwa orang-orang di HN yang mengkritik tulisan ini hanya menyoroti bagian kecil alih-alih kesalahan mendasarnya
Jika tulisan ini benar, klaim bahwa OpenAI atau Anthropic merugi pada inferensi juga tetap memiliki dasar yang lemah
Bagian biaya token output juga sangat keliru
Terima kasih atas koreksi bahwa matematikanya salah, tetapi akan membantu mengatur ekspektasi jika angka yang akurat juga disajikan
Saya sudah beberapa kali membuat pemodelan, dan menurut saya inferensi bisa memiliki margin di atas 50% tergantung depresiasi GPU dan optimisasi pemanfaatan sumber daya
Namun hasilnya berubah besar tergantung apakah biaya pelatihan model ikut dimasukkan
Jika biaya pelatihan tidak dikapitalisasi, marginnya bagus, tetapi jika didepresiasikan dan dimasukkan, profitabilitasnya memburuk drastis
Ada pertanyaan mengapa pelatihan dikecualikan
Laboratorium AI besar mungkin bisa punya margin tinggi, tetapi perusahaan biasa berbeda
Bahkan jika GPU didepresiasikan selama 5 tahun, penurunan utilisasi akibat turunnya pangsa pasar bisa menjadi sangat fatal
Biaya pelatihan, bahkan menurut standar IFRS/GAAP, adalah biaya yang pada akhirnya harus masuk ke harga pokok pendapatan karena langsung terkait dengan pendapatan
Sam Altman mengatakan, "kami mendapat keuntungan dari inferensi, dan sangat menguntungkan jika biaya pelatihan dikecualikan"
Amodei juga menjelaskan hal serupa: jika satu model dipandang sebagai satu perusahaan, maka dengan biaya pelatihan 100 juta dolar dan pendapatan 200 juta dolar, unit model itu untung
Hanya saja, pada saat yang sama perusahaan secara keseluruhan menjadi merugi karena sedang melatih model generasi berikutnya yang lebih mahal
Namun ucapan seperti "untung jika biaya pelatihan dikecualikan" pada dasarnya adalah ungkapan klise yang berlaku untuk hampir semua perusahaan, jadi tidak terlalu bermakna
Pada praktiknya, OpenAI berinvestasi ke startup dan memberikan kredit sehingga terbentuk struktur sirkulasi uang, yang membuat profitabilitas sebenarnya sulit dipahami
Menurut podcast NYT, Sam mengatakan "kalau hanya melihat inferensi, kami untung", tetapi COO di sebelahnya memberikan reaksi yang ambigu
Jika inferensi semurah yang diklaim tulisan ini, timbul pertanyaan mengapa tidak banyak penyedia API supermurah
Secara realistis, sebagian besar penyedia murah hanya menjalankan model kecil
Kalau begitu, timbul pertanyaan mengapa model besar seperti DeepSeek-R1 tidak bisa dipakai dengan murah
Sebenarnya sudah ada beberapa penyedia API, dan ada juga yang memberikan DeepSeek-R1 gratis
Ada juga layanan seperti DeepInfra, dan harga nyatanya bahkan lebih murah daripada perkiraan dalam tulisan ini
Tetapi ada biaya tetap yang sangat besar seperti pelatihan model, pembangunan infrastruktur, dan tenaga kerja, sehingga profitabilitas tidak bisa dijelaskan hanya dari tarif inferensi semata
Untuk menjalankan model 600B sendiri, diperlukan GPU senilai puluhan ribu dolar, dan sebagian besar waktu akan menganggur, sehingga tidak efisien
Dari sudut pandang orang yang berpengalaman dengan arsitektur GPU, pada konteks panjang operasi attention memang secara teoretis meningkat O(n²), tetapi
Tulisan ini menghitung berdasarkan DeepSeek R1, tetapi DeepSeek sangat efisien secara tidak normal, sehingga tidak cocok untuk memperkirakan biaya OpenAI/Anthropic
Efisiensi DeepSeek berasal dari MoE dan attention MLA
Alasan DeepSeek mengguncang pasar bukanlah efisiensi inferensinya, melainkan klaim biaya pelatihan 5 juta dolar
Sulit menganggap GPT-5 atau Claude 4 benar-benar kurang efisien dibanding DeepSeek
Amodei juga mengatakan bahwa DeepSeek hanyalah bagian dari kurva penurunan biaya yang sudah diperkirakan
Angka token per hari yang diajukan tulisan ini terlalu rendah
Harga ChatGPT Pro juga disebutkan secara keliru
Harga sebenarnya adalah 200 dolar per bulan, dan Sam Altman sendiri pernah mengatakan bahwa "kami merugi pada langganan Pro"
Alasannya karena orang memakainya jauh lebih banyak daripada yang diperkirakan
Namun belakangan ia mengatakan bahwa "kami untung pada inferensi"
Secara pribadi saya tidak percaya pada pernyataan Sam
Kemungkinan besar dalam kenyataannya 10% pengguna teratas menyumbang sebagian besar penggunaan dalam distribusi power law
Menurut laporan terbaru, Anthropic memiliki margin 60%, dan OpenAI sekitar margin 50% termasuk pengguna gratis
Biaya semakin turun berkat speculative decoding, caching, dan sebagainya
Anggapan 37 miliar parameter dalam tulisan itu juga tidak sesuai dengan ukuran model sebenarnya
Namun margin saja tidak cukup untuk melihat gambaran keseluruhan
Sam Altman telah berulang kali mengatakan dalam berbagai wawancara bahwa "jika biaya pelatihan dikecualikan, kami untung"