Apakah OpenAI dan Anthropic Sebenarnya Merugi dalam Inference

(martinalderson.com)

4 poin oleh GN⁺ 2025-08-29 | Belum ada komentar. | Bagikan ke WhatsApp

Bertentangan dengan klaim yang umum diajukan di industri, biaya inference AI lebih murah dari yang dibayangkan dan justru dapat menjamin profitabilitas yang tinggi
Menurut analisis, biaya token input pada praktiknya nyaris bisa diabaikan (sekitar $0.005 per satu juta token), sementara biaya token output lebih dari $3 per satu juta token, sehingga muncul selisih 1000x
Paket langganan konsumen (misalnya ChatGPT Pro $20/bulan) menghasilkan 5~6x dibanding biaya inference riil, sedangkan paket untuk developer (Claude Code) 10~20x, sehingga profitabilitasnya sangat tinggi
Paket harga API menyisakan margin 80~95% atau lebih dibanding biaya pokok, membentuk struktur laba yang mirip perangkat lunak
Pada akhirnya, inference bukanlah “lubang uang”, melainkan bisnis dengan profitabilitas sangat tinggi bila struktur ketimpangan input terhadap output dimanfaatkan dengan baik

Pendahuluan

Ada klaim bahwa AI, khususnya inference, menimbulkan biaya yang sangat besar, tetapi analisis ekonomi dengan sudut pandang skeptis tetap diperlukan
- Penulis tidak memiliki pengalaman mengoperasikan model frontier skala besar, tetapi berangkat dari pemahaman tentang layanan cloud ber-throughput tinggi dan struktur biaya bare metal dibanding hyperscaler
Analisis ini berada pada tingkat perhitungan kasar (napkin math), dengan fokus pada biaya komputasi murni
- Biaya satu GPU H100 ditetapkan $2 per jam; perusahaan AI besar kemungkinan bisa mendapatkannya lebih murah dari ini

Analisis hanya berfokus pada biaya komputasi murni, dan menguji keberlanjutan tanpa perbaikan model, hanya berdasarkan kegunaan model saat ini
- Menggunakan arsitektur DeepSeek R1 (total 671B parameter, 37B aktif), dengan asumsi performa serupa Claude Sonnet 4 dan GPT-5

Konfigurasi produksi: klaster 72 GPU H100, biaya $144 per jam
- Ukuran batch 32, pemrosesan paralel tensor pada 8 GPU per grup sehingga 9 instans model berjalan bersamaan
Tahap prefill (pemrosesan input): berdasarkan bandwidth HBM H100 sebesar 3.35TB/s, dapat memproses 45 forward pass per detik
- Dengan 32 sekuens per batch (rata-rata 1.000 token), throughput mencapai 1,44 juta token input per detik, atau 46,8 miliar token input per jam
- Pada model MoE, throughput bisa turun 30~50% karena expert routing, tetapi dampaknya minimal berkat pemrosesan paralel yang efisien
Tahap decode (generasi output): token dihasilkan secara berurutan, 1.440 token output per detik, atau 46,7 juta token output per jam
Perhitungan biaya murni per token
- Token input: $144 ÷ 46,8 miliar = sekitar $0.003 per satu juta token
- Token output: $144 ÷ 46,7 juta = sekitar $3.08 per satu juta token
  - Asimetri: selisih biaya antara pemrosesan input dan generasi output sekitar 1000x

Secara umum, bandwidth memori adalah bottleneck, tetapi pada sekuens konteks panjang 128k+ operasi attention menjadi bottleneck sehingga biaya naik 2~10x
- Claude Code mempertahankan batas 200k token untuk menjaga rezim murah yang berpusat pada memori, dan menghindari skenario mahal yang berpusat pada komputasi
- Biaya tambahan untuk jendela konteks panjang mencerminkan perubahan ekonomi ini

Paket konsumen ($20/bulan ChatGPT Pro): 100 ribu token per hari (70% input, 30% output), biaya nyata sekitar $3/bulan
- Margin OpenAI: 5~6x
Penggunaan developer (Claude Code Max 5, $100/bulan): 2 juta input dan 30 ribu token output per hari, biaya nyata sekitar $4.92/bulan, margin 20.3x
- Max 10 ($200/bulan): 10 juta input dan 100 ribu token output per hari, biaya nyata sekitar $16.89/bulan, margin 11.8x
- Agen coding memaksimalkan ekonomi karena pola penggunaan yang berpusat pada input (murah)
Margin laba API: dibanding harga saat ini ($3/15 per satu juta token) dengan biaya nyata ($0.01/3), terdapat margin 80~95%

Analisis ini didasarkan pada berbagai asumsi dan ada kemungkinan galat, tetapi bahkan dengan asumsi selisih 3x pun profitabilitasnya tetap tinggi
- Pemrosesan input murah, sekitar $0.005 per satu juta token, sementara generasi output $3+ dengan selisih seribu kali
Struktur asimetris biaya token input dan output adalah inti persoalan, dan layanan yang memanfaatkannya dengan baik bisa mencapai profitabilitas tinggi
- Beban kerja dengan porsi input besar (asisten coding, analisis dokumen, riset, dll.) → struktur biaya hampir gratis, dengan profitabilitas sangat tinggi
- Beban kerja dengan porsi output besar (misalnya generasi video) → input sedikit tetapi output jutaan token, sehingga struktur biaya kurang menguntungkan dan harga mahal menjadi tak terhindarkan
Klaim bahwa “inference AI terlalu mahal hingga tidak berkelanjutan” tidak sesuai dengan struktur biaya nyata. Ini bisa jadi merupakan strategi penekanan persaingan dari pemain besar yang sudah ada. Struktur marginnya sendiri pada praktiknya sudah sangat kokoh
Seperti pembesaran biaya cloud computing di masa lalu yang membenarkan laba berlebih Big Tech, dalam diskusi biaya inference juga ada risiko bekerjanya “pemasaran ketakutan biaya” yang berlebihan
- Perlu pendekatan berbasis fakta terhadap struktur biaya