4 poin oleh GN⁺ 2025-08-29 | 1 komentar | Bagikan ke WhatsApp
  • Bertentangan dengan klaim yang umum diajukan di industri, biaya inference AI lebih murah dari yang dibayangkan dan justru dapat menjamin profitabilitas yang tinggi
  • Menurut analisis, biaya token input pada praktiknya nyaris bisa diabaikan (sekitar $0.005 per satu juta token), sementara biaya token output lebih dari $3 per satu juta token, sehingga muncul selisih 1000x
  • Paket langganan konsumen (misalnya ChatGPT Pro $20/bulan) menghasilkan 5~6x dibanding biaya inference riil, sedangkan paket untuk developer (Claude Code) 10~20x, sehingga profitabilitasnya sangat tinggi
  • Paket harga API menyisakan margin 80~95% atau lebih dibanding biaya pokok, membentuk struktur laba yang mirip perangkat lunak
  • Pada akhirnya, inference bukanlah “lubang uang”, melainkan bisnis dengan profitabilitas sangat tinggi bila struktur ketimpangan input terhadap output dimanfaatkan dengan baik

Pendahuluan

  • Ada klaim bahwa AI, khususnya inference, menimbulkan biaya yang sangat besar, tetapi analisis ekonomi dengan sudut pandang skeptis tetap diperlukan
    • Penulis tidak memiliki pengalaman mengoperasikan model frontier skala besar, tetapi berangkat dari pemahaman tentang layanan cloud ber-throughput tinggi dan struktur biaya bare metal dibanding hyperscaler
  • Analisis ini berada pada tingkat perhitungan kasar (napkin math), dengan fokus pada biaya komputasi murni
    • Biaya satu GPU H100 ditetapkan $2 per jam; perusahaan AI besar kemungkinan bisa mendapatkannya lebih murah dari ini

Asumsi

  • Analisis hanya berfokus pada biaya komputasi murni, dan menguji keberlanjutan tanpa perbaikan model, hanya berdasarkan kegunaan model saat ini
    • Menggunakan arsitektur DeepSeek R1 (total 671B parameter, 37B aktif), dengan asumsi performa serupa Claude Sonnet 4 dan GPT-5

Lingkungan produksi dengan H100

  • Konfigurasi produksi: klaster 72 GPU H100, biaya $144 per jam
    • Ukuran batch 32, pemrosesan paralel tensor pada 8 GPU per grup sehingga 9 instans model berjalan bersamaan
  • Tahap prefill (pemrosesan input): berdasarkan bandwidth HBM H100 sebesar 3.35TB/s, dapat memproses 45 forward pass per detik
    • Dengan 32 sekuens per batch (rata-rata 1.000 token), throughput mencapai 1,44 juta token input per detik, atau 46,8 miliar token input per jam
    • Pada model MoE, throughput bisa turun 30~50% karena expert routing, tetapi dampaknya minimal berkat pemrosesan paralel yang efisien
  • Tahap decode (generasi output): token dihasilkan secara berurutan, 1.440 token output per detik, atau 46,7 juta token output per jam
  • Perhitungan biaya murni per token
    • Token input: $144 ÷ 46,8 miliar = sekitar $0.003 per satu juta token
    • Token output: $144 ÷ 46,7 juta = sekitar $3.08 per satu juta token
      • Asimetri: selisih biaya antara pemrosesan input dan generasi output sekitar 1000x

Bottleneck komputasi

  • Secara umum, bandwidth memori adalah bottleneck, tetapi pada sekuens konteks panjang 128k+ operasi attention menjadi bottleneck sehingga biaya naik 2~10x
    • Claude Code mempertahankan batas 200k token untuk menjaga rezim murah yang berpusat pada memori, dan menghindari skenario mahal yang berpusat pada komputasi
    • Biaya tambahan untuk jendela konteks panjang mencerminkan perubahan ekonomi ini

Ekonomi pengguna nyata

  • Paket konsumen ($20/bulan ChatGPT Pro): 100 ribu token per hari (70% input, 30% output), biaya nyata sekitar $3/bulan
    • Margin OpenAI: 5~6x
  • Penggunaan developer (Claude Code Max 5, $100/bulan): 2 juta input dan 30 ribu token output per hari, biaya nyata sekitar $4.92/bulan, margin 20.3x
    • Max 10 ($200/bulan): 10 juta input dan 100 ribu token output per hari, biaya nyata sekitar $16.89/bulan, margin 11.8x
    • Agen coding memaksimalkan ekonomi karena pola penggunaan yang berpusat pada input (murah)
  • Margin laba API: dibanding harga saat ini ($3/15 per satu juta token) dengan biaya nyata ($0.01/3), terdapat margin 80~95%

Kesimpulan

  • Analisis ini didasarkan pada berbagai asumsi dan ada kemungkinan galat, tetapi bahkan dengan asumsi selisih 3x pun profitabilitasnya tetap tinggi
    • Pemrosesan input murah, sekitar $0.005 per satu juta token, sementara generasi output $3+ dengan selisih seribu kali
  • Struktur asimetris biaya token input dan output adalah inti persoalan, dan layanan yang memanfaatkannya dengan baik bisa mencapai profitabilitas tinggi
    • Beban kerja dengan porsi input besar (asisten coding, analisis dokumen, riset, dll.) → struktur biaya hampir gratis, dengan profitabilitas sangat tinggi
    • Beban kerja dengan porsi output besar (misalnya generasi video) → input sedikit tetapi output jutaan token, sehingga struktur biaya kurang menguntungkan dan harga mahal menjadi tak terhindarkan
  • Klaim bahwa “inference AI terlalu mahal hingga tidak berkelanjutan” tidak sesuai dengan struktur biaya nyata. Ini bisa jadi merupakan strategi penekanan persaingan dari pemain besar yang sudah ada. Struktur marginnya sendiri pada praktiknya sudah sangat kokoh
  • Seperti pembesaran biaya cloud computing di masa lalu yang membenarkan laba berlebih Big Tech, dalam diskusi biaya inference juga ada risiko bekerjanya “pemasaran ketakutan biaya” yang berlebihan
    • Perlu pendekatan berbasis fakta terhadap struktur biaya

1 komentar

 
GN⁺ 2025-08-29
Pendapat Hacker News
  • Perhitungan matematis dalam tulisan ini salah dalam banyak hal

    • Khususnya, asumsi bahwa tahap prefill terikat oleh bandwidth itu keliru

    • Jika MFU yang dihitung penulis diurai, hasilnya 13 PFLOPS/s, yang berarti 7 kali kinerja maksimum perangkat keras nyata, jadi angka itu mustahil

    • Asumsi seperti 32 permintaan simultan, batas 8 GPU, dan hanya operasi attention yang menjadi bottleneck juga semuanya premis yang salah

    • Disayangkan bahwa orang-orang di HN yang mengkritik tulisan ini hanya menyoroti bagian kecil alih-alih kesalahan mendasarnya

    • Jika tulisan ini benar, klaim bahwa OpenAI atau Anthropic merugi pada inferensi juga tetap memiliki dasar yang lemah

    • Bagian biaya token output juga sangat keliru

      • Pada praktiknya, dengan klaster GPU yang kuat saja, model besar bisa didekode dengan murah
      • Sebagai contoh, empat bulan lalu biayanya sekitar 0,2 dolar per 1 juta token output, dan setelah itu menjadi lebih murah lagi berkat GPU B200 dan optimisasi kode
    • Terima kasih atas koreksi bahwa matematikanya salah, tetapi akan membantu mengatur ekspektasi jika angka yang akurat juga disajikan

  • Saya sudah beberapa kali membuat pemodelan, dan menurut saya inferensi bisa memiliki margin di atas 50% tergantung depresiasi GPU dan optimisasi pemanfaatan sumber daya

    • Namun hasilnya berubah besar tergantung apakah biaya pelatihan model ikut dimasukkan

    • Jika biaya pelatihan tidak dikapitalisasi, marginnya bagus, tetapi jika didepresiasikan dan dimasukkan, profitabilitasnya memburuk drastis

    • Ada pertanyaan mengapa pelatihan dikecualikan

      • Model tidak dipakai selama bertahun-tahun; model harus dilatih ulang setiap beberapa bulan agar tetap kompetitif
    • Laboratorium AI besar mungkin bisa punya margin tinggi, tetapi perusahaan biasa berbeda

      • Misalnya, dari materi publik tim DeepSeek, pada 8x H200 SXM dengan vLLM didapat sekitar 12K tok/s
      • Tetapi untuk menangani 100K~200K tok/s diperlukan GPU dalam jumlah sangat besar, dan sebagian besar akan tetap menganggur
      • Karena itu, asumsi seperti utilisasi 100%, pemrosesan input gratis, dan tidak ada bottleneck jaringan tidak realistis
    • Bahkan jika GPU didepresiasikan selama 5 tahun, penurunan utilisasi akibat turunnya pangsa pasar bisa menjadi sangat fatal

    • Biaya pelatihan, bahkan menurut standar IFRS/GAAP, adalah biaya yang pada akhirnya harus masuk ke harga pokok pendapatan karena langsung terkait dengan pendapatan

  • Sam Altman mengatakan, "kami mendapat keuntungan dari inferensi, dan sangat menguntungkan jika biaya pelatihan dikecualikan"

    • Amodei juga menjelaskan hal serupa: jika satu model dipandang sebagai satu perusahaan, maka dengan biaya pelatihan 100 juta dolar dan pendapatan 200 juta dolar, unit model itu untung

    • Hanya saja, pada saat yang sama perusahaan secara keseluruhan menjadi merugi karena sedang melatih model generasi berikutnya yang lebih mahal

    • Namun ucapan seperti "untung jika biaya pelatihan dikecualikan" pada dasarnya adalah ungkapan klise yang berlaku untuk hampir semua perusahaan, jadi tidak terlalu bermakna

    • Pada praktiknya, OpenAI berinvestasi ke startup dan memberikan kredit sehingga terbentuk struktur sirkulasi uang, yang membuat profitabilitas sebenarnya sulit dipahami

    • Menurut podcast NYT, Sam mengatakan "kalau hanya melihat inferensi, kami untung", tetapi COO di sebelahnya memberikan reaksi yang ambigu

      • Artinya, dalam kenyataannya mungkin saja inferensi sendiri masih belum benar-benar untung penuh
  • Jika inferensi semurah yang diklaim tulisan ini, timbul pertanyaan mengapa tidak banyak penyedia API supermurah

    • Secara realistis, sebagian besar penyedia murah hanya menjalankan model kecil

    • Kalau begitu, timbul pertanyaan mengapa model besar seperti DeepSeek-R1 tidak bisa dipakai dengan murah

    • Sebenarnya sudah ada beberapa penyedia API, dan ada juga yang memberikan DeepSeek-R1 gratis

    • Ada juga layanan seperti DeepInfra, dan harga nyatanya bahkan lebih murah daripada perkiraan dalam tulisan ini

    • Tetapi ada biaya tetap yang sangat besar seperti pelatihan model, pembangunan infrastruktur, dan tenaga kerja, sehingga profitabilitas tidak bisa dijelaskan hanya dari tarif inferensi semata

    • Untuk menjalankan model 600B sendiri, diperlukan GPU senilai puluhan ribu dolar, dan sebagian besar waktu akan menganggur, sehingga tidak efisien

      • Karena itu masuk akal jika penyedia model mengumpulkan GPU dan menyediakannya sebagai infrastruktur bersama
  • Dari sudut pandang orang yang berpengalaman dengan arsitektur GPU, pada konteks panjang operasi attention memang secara teoretis meningkat O(n²), tetapi

    • bottleneck sebenarnya adalah kecepatan transfer memori
    • Misalnya, bahkan dengan HBM 2+TB/s pun sulit memenuhi bandwidth yang dibutuhkan per core, dan jika konflik ikut diperhitungkan, bottleneck menjadi ribuan kali lebih parah
  • Tulisan ini menghitung berdasarkan DeepSeek R1, tetapi DeepSeek sangat efisien secara tidak normal, sehingga tidak cocok untuk memperkirakan biaya OpenAI/Anthropic

    • Efisiensi DeepSeek berasal dari MoE dan attention MLA

      • Namun besar kemungkinan OpenAI atau Google juga sudah menerapkan optimisasi serupa sejak lama
      • GPT OSS bahkan menggunakan fp4, sedangkan DeepSeek belum
    • Alasan DeepSeek mengguncang pasar bukanlah efisiensi inferensinya, melainkan klaim biaya pelatihan 5 juta dolar

    • Sulit menganggap GPT-5 atau Claude 4 benar-benar kurang efisien dibanding DeepSeek

    • Amodei juga mengatakan bahwa DeepSeek hanyalah bagian dari kurva penurunan biaya yang sudah diperkirakan

      • Jadi, yang istimewa bukan terobosan revolusioner, melainkan fakta bahwa perusahaan Tiongkok yang pertama menunjukkannya
  • Angka token per hari yang diajukan tulisan ini terlalu rendah

    • Saya rata-rata memakai 300 juta hingga 800 juta token per hari, dan rekan-rekan saya juga sekitar 150 juta hingga 600 juta token
    • Tulisan itu juga tidak mempertimbangkan prompt caching, yang dapat mengurangi volume inferensi sebesar 85~95%
    • Agar perhitungan akurat, perlu dijelaskan juga skema kuantisasi apa yang dipakai untuk model dan cache KV
  • Harga ChatGPT Pro juga disebutkan secara keliru

    • Harga sebenarnya adalah 200 dolar per bulan, dan Sam Altman sendiri pernah mengatakan bahwa "kami merugi pada langganan Pro"

    • Alasannya karena orang memakainya jauh lebih banyak daripada yang diperkirakan

    • Namun belakangan ia mengatakan bahwa "kami untung pada inferensi"

      • Hanya saja, karena ini perusahaan tertutup, sulit mengetahui pernyataan mana yang lebih dekat dengan kenyataan
    • Secara pribadi saya tidak percaya pada pernyataan Sam

      • Rasanya lebih seperti pernyataan pemasaran bahwa "produk kami bernilai tinggi"
    • Kemungkinan besar dalam kenyataannya 10% pengguna teratas menyumbang sebagian besar penggunaan dalam distribusi power law

      • Karena itu, struktur langganan Pro bisa saja merugi
  • Menurut laporan terbaru, Anthropic memiliki margin 60%, dan OpenAI sekitar margin 50% termasuk pengguna gratis

    • Biaya semakin turun berkat speculative decoding, caching, dan sebagainya

    • Anggapan 37 miliar parameter dalam tulisan itu juga tidak sesuai dengan ukuran model sebenarnya

    • Namun margin saja tidak cukup untuk melihat gambaran keseluruhan

      • Sangat mungkin Azure atau AWS memberikan diskon besar-besaran
  • Sam Altman telah berulang kali mengatakan dalam berbagai wawancara bahwa "jika biaya pelatihan dikecualikan, kami untung"

    • Sebagian orang menganggap ini sebagai dasar bahwa klaim "OpenAI merugi di setiap permintaan" itu salah
    • Tetapi jika pelatihan gratis, siapa pun bisa melakukannya, jadi itu sendiri adalah asumsi yang tidak bermakna
    • Dario Amodei juga menjelaskan bahwa pada akhirnya, jika dilihat per model, tetap untung
    • Namun pernyataan Sam bisa jadi untuk meyakinkan investor, dan profitabilitas sebenarnya tetap tidak transparan