LLM sebenarnya sangat murah

(snellman.net)

26 poin oleh GN⁺ 2025-06-10 | 4 komentar | Bagikan ke WhatsApp

Kebanyakan orang cenderung melebih-lebihkan biaya penggunaan LLM (large language model), padahal kenyataannya biayanya turun sangat cepat hingga mencapai tingkat yang bahkan lebih murah daripada pencarian web
- Pada masa awal demam AI generatif, biaya inferensi memang tinggi, tetapi dalam 2 tahun terakhir biayanya turun hampir 1000 kali lipat
Jika harga riil API LLM dibandingkan langsung dengan API pencarian web, model LLM berbiaya rendah bahkan lebih dari 10 kali lebih murah daripada API pencarian termurah, dan model kelas menengah pun memiliki struktur harga yang sangat kompetitif
Hanya sedikit bukti bahwa operator model menyubsidi harga API secara berlebihan, dan ada kasus yang menunjukkan margin tinggi hingga 80% berdasarkan biaya GPU
Alasan perusahaan AI besar seperti OpenAI merugi bukanlah karena biaya, melainkan karena kebijakan monetisasi yang rendah; bahkan dengan menarik $1 per bulan per pengguna saja, struktur bisnisnya sudah bisa berbalik untung
Ke depan, pusat beban biaya diperkirakan akan bergeser dari LLM itu sendiri ke layanan backend eksternal (misalnya berbagai penyedia data). Menjalankan LLM akan terus semakin murah, dan model bisnisnya juga cukup layak

Kesalahpahaman dan kenyataan tentang biaya LLM

Banyak orang salah paham bahwa biaya operasional LLM seperti ChatGPT sangat mahal
Akibatnya, terus muncul analisis keliru bahwa kelayakan bisnis perusahaan AI tidak jelas atau monetisasi layanan AI untuk konsumen akan sulit
Anggapan bahwa LLM masih mahal adalah kesalahan persepsi
- Pada awal ledakan AI, biaya inferensi memang sangat tinggi, tetapi dalam 2 tahun terakhir biaya turun hampir 1000 kali lipat
- Banyak diskusi membuat proyeksi yang salah karena masih memakai struktur biaya dari masa lalu
Model harga “per 1 juta token” yang umum dipakai sering kali sulit dipahami secara intuitif

Perbandingan harga API pencarian web dan API LLM

Tarif API pencarian web yang representatif
- Google Search: $35/1000 kali
- Bing Search: $15/1000 kali
- Brave Search: $5~9/1000 kali, dengan struktur yang justru makin mahal ketika unit price meningkat
- Secara keseluruhan, API pencarian web tidak bisa dibilang murah, dan layanan dengan kualitas lebih baik cenderung lebih mahal
Tarif API LLM (berdasarkan 1k token)
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00, dll.
- Agar bisa dibandingkan dengan pencarian, biaya LLM perlu dihitung dengan cara yang sebanding: jumlah token output per kueri + harga per token
- 500~1000 token adalah konsumsi rata-rata per kueri, sehingga bisa dibandingkan secara langsung
Model LLM murah 10~25 kali lebih murah daripada API pencarian termurah
- LLM kualitas menengah pun biayanya jauh lebih rendah daripada pencarian pada rentang yang sama
- Jika mempertimbangkan diskon tambahan seperti batch dan potongan pada jam non-puncak, biayanya bisa lebih murah lagi

Alasan sebenarnya mengapa biayanya murah

Dugaan bahwa penyedia model mensubsidi harga API tidak punya dasar yang kuat
- Insentif untuk memperluas pangsa pasar API juga tidak terlalu besar, dan harga API dari banyak penyedia lain juga terbentuk secara kompetitif
- Menurut data pengukuran Deepseek, margin berdasarkan GPU mencapai 80%
Biaya pelatihan (Training) dan biaya inferensi (Inference)
- Biaya pelatihan terdistribusi secara efektif (amortize) lewat lalu lintas inferensi berskala besar
- Justru biaya yang timbul saat memakai layanan backend pihak ketiga bisa menjadi isu yang lebih menonjol

Bantahan terhadap klaim “API LLM pasti merugi”

Kerugian pemain besar seperti OpenAI adalah hasil dari strategi monetisasi yang rendah
- Monetisasi di kisaran $1 per bulan saja sudah cukup untuk berbalik untung
- Ada juga tujuan seperti pengumpulan data dengan memanfaatkan trafik pengguna gratis
Ke depan, isu biaya yang sebenarnya bukan LLM, melainkan backend eksternal
- Contoh: jika AI agent memanggil API eksternal untuk pemesanan tiket, pada praktiknya beban biaya pihak ketiga bisa menjadi besar
- Penyedia layanan diperkirakan akan merespons dengan pemblokiran crawling, peralihan ke aplikasi mobile, penguatan login, dan sebagainya

Mengapa ini penting

Banyak prediksi masa depan dibuat berdasarkan premis keliru bahwa LLM itu mahal
Kenyataannya, penurunan biaya dan peningkatan permintaan terjadi bersamaan; harga diperkirakan akan terus turun dan pasar akan makin aktif
Perusahaan frontier AI berfokus pada penguasaan pasar ketimbang monetisasi, dan memang biaya layanan LLM mereka sangat rendah
Masalah biaya yang sebenarnya bukan terletak pada LLM itu sendiri, melainkan pada layanan eksternal yang terhubung di belakangnya (misalnya situs ticketing)
Dalam struktur di mana layanan eksternal ini tidak memperoleh pendapatan, ke depan mungkin muncul model monetisasi baru atau konflik teknis antara AI dan layanan backend

Kesimpulan dan prospek

Biaya inferensi LLM itu sendiri bukan lagi kendala mendasar bagi bisnis AI
- Dengan biaya eksekusi yang murah dan beragam opsi monetisasi (misalnya iklan, langganan, dll.), model ini cukup layak secara bisnis
- Ke depan, tantangan utama bukan lagi LLM, melainkan masalah biaya dan infrastruktur dari penyedia data eksternal yang dimanfaatkan AI
Diperlukan pemahaman biaya yang realistis dan perubahan strategi bisnis yang selaras dengan perubahan pasar dan teknologi

4 komentar

click 2025-06-12

Saya sempat berpikir biayanya sangat mahal ketika disimulasikan dengan skenario menyiapkan kartu grafis secara on-prem atau menyewa GPU di cloud,
namun tampaknya jika skala ekonominya tercapai, ini cukup layak dijalankan.

ethanhur 2025-06-11

Saya sempat ragu apakah monetisasi dengan LLM itu memungkinkan, jadi saya terkejut ternyata prospeknya positif.

mhj5730 2025-06-11

Hasil investigasinya ternyata lebih mengejutkan dari yang saya kira... biaya penggunaan model yang sudah menerima investasi puluhan triliun won itu murah, dan ternyata bahkan dengan biaya serendah itu pun masih cukup memungkinkan untuk dimonetisasi...

GN⁺ 2025-06-10

Opini Hacker News

Menurut saya tidak tepat membandingkan API pencarian yang menghasilkan keuntungan dengan API LLM berbasis cloud yang mengejar pangsa pasar sambil menanggung kerugian
Data saat ini menunjukkan perusahaan sedang melakukan belanja modal (capex) besar-besaran untuk merebut kepemimpinan AI, tetapi belum sampai pada tahap profitabilitas
Kedua produk ini berada pada tahap kematangan yang sama sekali berbeda, dan kenyataan bahwa tidak bisa membenarkan terus merugi pada layanan berusia 10 tahun yang tingkat penggunaannya menurun adalah hal yang tidak bisa diabaikan
Selain itu, kueri pencarian bisa diproses dengan CPU dan cache hit rate yang tinggi, sedangkan inferensi LLM umumnya membutuhkan GPU dan hasil tiap token berukuran besar, sehingga sulit berbagi cache antar pengguna
- Ada yang bilang tidak ada bukti bahwa layanan inference tidak menguntungkan, tetapi menurut saya cukup lihat saja saat membayar langsung biaya inference di penyedia hosting seperti AWS
  AWS tidak mungkin selamanya mensubsidi layanan yang menjalankan model eksternal, dan yang lebih penting adalah belanja infrastruktur itu capex, sedangkan biaya menjalankan inferensi adalah opex (biaya operasional)
- Belakangan ini, penyedia API yang meng-host model open-source menyisakan margin yang cukup besar antara tarif API dan biaya hardware inference yang sebenarnya
  Tentu itu bukan keseluruhannya, tetapi jika mempertimbangkan optimisasi inferensi internal, marginnya bisa lebih besar lagi
  Penyedia model tertutup seperti OpenAI atau Anthropic pun, jika diperkirakan berdasarkan spesifikasi model yang dipublikasikan, saya yakin Anthropic memiliki margin yang sangat baik antara tarif API dan biaya hardware
  Kalau memang pernah menjalankan model ini di production, menurut saya bagian ini bisa diverifikasi langsung
- Ada indikasi Perplexity melakukan manipulasi akuntansi dengan memindahkan COGS ke R&D agar terlihat seperti memiliki margin keuntungan yang baik
  Tautan
- Menurut analisis layanan API DeepSeek, mereka bukan hanya mencatat margin 500%, tetapi juga menawarkan harga jauh lebih murah daripada perusahaan AS yang melayani model yang sama
  Saya rasa OpenAI atau Anthropic juga sangat mungkin meraih margin yang jauh lebih tinggi dari ini
  GPU umumnya lebih unggul daripada CPU baik dari sisi biaya maupun efisiensi energi, dan Anthropic memanfaatkan KV-cache caching pada system prompt 24k token
- Saya tidak setuju dengan anggapan bahwa API LLM adalah strategi bakar uang untuk merebut pasar
  Saat ini justru ada layanan seperti openrouter yang memungkinkan model atau penyedia diganti bebas, sehingga tidak ada efek lock-in dan strategi merebut pangsa pasar itu sendiri tidak punya makna ekonomi
  Kalau produknya lewat UI seperti ChatGPT web mungkin lain cerita, tetapi menjual API dengan rugi menurut saya tindakan bodoh
  Bahkan VC pun saya rasa tidak akan menerima penjualan API yang merugi
Saya pikir membandingkan search engine dan LLM dengan asumsi keduanya hanya dipakai untuk pencarian fakta sederhana (misalnya "apa ibu kota Amerika Serikat?") adalah analogi yang terlalu jauh dari use case utama kedua layanan itu
Jika memakai search engine, fokusnya adalah akses ke indeks web, dan mendapatkan jawaban sederhana adalah fungsi UI/produk, bukan tujuan API
Saat memakai LLM, penggunaannya cenderung untuk analisis data skala besar, pengenalan gambar, penalaran kompleks, pemrograman, dan kebutuhan yang agak rumit, dan dalam kasus-kasus ini konsumsi token jauh lebih besar daripada jawaban pencarian sederhana
Rasanya argumen penulis itu seperti mengatakan "Honda Civic murah karena harganya per lb mirip apel", yaitu perbandingan yang keliru
- Model search engine lama terasa makin tidak berguna
  Para ahli makin jarang memakai search engine, dan pengguna umum pun memakai search engine bukan untuk menjelajahi indeks web melainkan secara percakapan, seolah bertanya pada manusia
  Kueri seperti "apa ibu kota Amerika Serikat?" yang memuat bagian tidak perlu justru lebih cocok untuk LLM daripada search engine,
  dan ada juga masalah besar penurunan kualitas pencarian akibat terlalu banyak situs spam SEO
  LLM lebih baik dalam menangani pertanyaan alami, dan karena memilihkan jawaban yang diinginkan tanpa penjelasan panjang yang tidak perlu, spam, atau iklan, saya rasa ke depan justru akan makin berguna
- Saya tidak setuju dengan pernyataan penulis bahwa "perbandingan search dan LLM dipertahankan hanya pada kueri fakta sederhana", tetapi inti analisis sebenarnya bukanlah 'membandingkan search engine dengan LLM', melainkan sekadar membandingkan harga dan biaya per unit (token/kueri) untuk menghitung margin
  Saat menilai apakah API dipertahankan dengan subsidi atau tidak, perbandingan dengan search engine menurut saya tidak mutlak diperlukan
- Bahwa LLM dipakai untuk analisis data skala besar dan penggunaan kompleks itu memang benar, tetapi saya akui ini lebih mewakili power user
- Poin bahwa search engine digunakan untuk mencari indeks web menurut saya bagus
  Tapi LLM juga bisa menemukan informasi yang diinginkan dengan lebih akurat, tanpa duplikasi, dan lebih cepat, jadi tidak bisa dibilang pencarian tradisional selalu lebih baik
  Jika LLM memberi jawaban langsung, bahkan menyertakan tautan agar hasilnya mudah diverifikasi, kepuasan pengguna justru bisa lebih tinggi
  Ada pendapat bahwa Google terus menenggelamkan hasil pencarian justru karena kenyataan bahwa hasil berbasis indeks makin lama makin kurang berguna
- Ada juga dasar untuk mengatakan bahwa kerugian OpenAI pada 2024 tidak terlalu besar, dan jika melihat jumlah kunjungan/penggunaan bulanan, biaya inference sebenarnya mungkin tidak setinggi itu
  Mengingat ChatGPT adalah salah satu situs yang paling banyak dikunjungi di dunia setiap bulan, dan mayoritas traffic berasal dari penggunaan gratis, biaya nyatanya bisa jadi tidak sebesar yang dibayangkan
Ada pertanyaan apakah dasar estimasi biaya terkait LLM ini memang jelas
Misalnya, fakta terkini seperti ukuran bagasi pesawat akan lebih bisa dipercaya jika dicari lewat LLM yang dilengkapi fitur web search agar dapat memeriksa sumber
Dalam kasus seperti itu konsumsi token bisa meningkat cepat sehingga estimasi biaya bisa meleset,
dan saat percakapan diulang berkali-kali dengan konteks yang terus menumpuk, total penggunaan token memang bisa melonjak
Saya mengakui bahwa tanpa data penggunaan nyata, sulit menghitung biaya hanya dari perkiraan
- Saya bertanya ke LLM soal kabar terbaru, lalu LLM membaca beberapa halaman web langsung dan merangkumnya untuk saya
  Kalau pertanyaannya terkait hal terbaru, ia pasti melakukan web search dan menyertakan tautan referensi, jadi menurut saya cara ini cukup bisa dimanfaatkan
- Saat saya bertanya "berapa ukuran kabin untuk rute maskapai AS DFW-CDG", ia memakai web search dan memberi jawaban yang akurat, bahkan mengarahkan ke situs resmi serta tautan FAA
  Menurut saya cara seperti ini efisien untuk digunakan
Dengan kenyataan sulitnya mendapatkan semikonduktor, serta mahalnya listrik dan biaya peralatan, saya tidak melihat para pemain besar bisa langsung meraih keuntungan sambil menjalankan layanan LLM berbasis API tanpa perbaikan profitabilitas
Selama harga hardware dan masalah listrik belum teratasi, akan sulit menghasilkan keuntungan besar dalam waktu dekat
YouTube juga dijadikan contoh: bahkan setelah beroperasi 20 tahun, Alphabet tidak mengungkap secara rinci apakah benar-benar untung atau tidak
- Profitabilitas besar Alphabet (Google) berasal dari dominasi pangsa pasar di pencarian dan pendapatan iklan
  Perusahaan AI juga sedang bertaruh bahwa suatu saat mereka bisa mengubah pangsa pasar menjadi pendapatan
  Jika stickiness tercipta, konversi dari pangsa pasar ke profit juga sangat mungkin terjadi
- Ada yang mengatakan bahwa kenaikan harga saham itu sendiri, dalam arti tertentu, bisa menjadi ukuran profitabilitas perusahaan,
  sambil menyebut Amazon memakai strategi serupa selama lebih dari 10 tahun
Dari angka OpenAI rugi 500 juta dolar pada 2024 dan 500 juta MAU, logika bahwa 'kalau 500M pengguna gratis dikonversi menjadi ARPU $10 per tahun maka bisa mencapai BEP' sebenarnya adalah angka yang sulit diwujudkan
Jika pengguna gratis ditagih bahkan hanya $1, mayoritas kemungkinan akan pergi,
dan kata 'cukup' di sana terasa terlalu menyederhanakan kenyataan
- Sebenarnya bukan mengusulkan penagihan $1/bulan, melainkan bahwa menjalankan LLM sekarang sudah menjadi sangat murah sehingga bahkan model berbasis iklan pun cukup untuk menghasilkan uang
  Jika dibandingkan dengan layanan berbasis iklan lain yang skalanya setara, biaya dasar LLM saat ini jauh lebih rendah, jadi langganan bukan satu-satunya jawaban
- Mengubah 500 juta orang menjadi pengguna berbayar justru bisa membuat pola penggunaan dan biaya dasar layanan berubah total sehingga biayanya meledak
  Sebaliknya, bisa juga dibuat asumsi sederhana bahwa jika hanya 1% yang beralih ke berbayar, itu sudah menghasilkan 1 miliar dolar per tahun
- Saya justru berpikir layanan-layanan ini dijalankan dalam kondisi rugi karena nilai data pengguna jauh lebih besar daripada biaya langganan
- Sebenarnya tidak semua orang harus menjadi pengguna berbayar; cukup jika sebagian pengguna berbayar mensubsidi sisanya, model seperti itu sudah bisa berjalan
Seiring waktu, setelah pangsa pasar terkonsentrasi dan regulasi datang, investor kemungkinan akan mulai menagih realisasi kenaikan harga yang sudah dijanjikan
- Atau kemungkinan besar mereka akan menghasilkan uang lewat iklan
  Apa pun pertanyaannya, iklan Coca-Cola akan muncul di sela jawaban,
  proyek coding AI akan otomatis diberi iklan,
  dan setiap email ke-10 yang dikirim AI akan disisipi iklan produk asuransi
  Ada peluang monetisasi tanpa batas
Saat menghitung biaya operasional LLM di internal perusahaan dengan berfokus pada konsumsi listrik, hasilnya hanya berada di kisaran belasan dolar per 1 juta token meskipun ada permintaan burst dari pengguna internal
Karena beban server tidak besar, masih sangat mungkin biayanya jauh lebih rendah bila dijalankan dalam skala besar
- Ada yang bertanya apakah perhitungan ini hanya didasarkan pada konsumsi listrik saja
Ada keraguan apakah 1 respons token LLM dan 1 hasil pencarian search engine benar-benar bisa dibandingkan secara setara
Penulis membandingkan 1.000 panggilan LLM (sekitar 1 juta token) dengan 1.000 kueri search engine,
tetapi rasanya mungkin ada kesalahan sampai 1.000 kali lipat
(Perbaikan lanjutan: setelah melihat metode penulis, saya cek langsung bahwa perbandingan harga memang dilakukan berdasarkan 1.000 kali penggunaan API, jadi itu tadi salah paham)
- Dikoreksi bahwa penulis memang membandingkan biaya per 1.000 kali LLM (total 1 juta token) dan per 1.000 kali pencarian
- Jika Gemini 2.0 Flash berharga 0,4 dolar per 1 juta token dan Bing Search API 15 dolar per 1000 kueri, maka hitungannya sisi LLM 37 kali lebih murah
Jika ke depan diharapkan ada peningkatan efisiensi dan penurunan biaya dasar sampai 100x, mengapa sekarang justru pusat data dibangun sedemikian masif menjadi pertanyaan
Mungkin bukankah pusat data yang ada sudah cukup dimanfaatkan jika hanya menunggu siklus upgrade mesin,
dan ada juga kemungkinan bahwa demam investasi saat ini sebenarnya adalah gelembung
Ada yang membagikan artikel perbandingan performa terkait
Tautan
Menurut saya tetap mahal jika hanya dilihat dari harga riilnya,
dan dalam situasi persaingan pangsa pasar yang sangat ketat, angka-angka ini tidak bisa ditafsirkan hanya secara literal