- Di tengah harga API frontier lab AS yang terus naik, kombinasi engineer dari negara berbiaya rendah dan model open source seperti DeepSeek muncul sebagai alternatif yang ekonomis
- Model frontier terbaru seperti GPT-5.5, Gemini 3.5 Flash, dan Opus-4.7 melakukan kenaikan harga 2~3 kali lipat atau peningkatan konsumsi token
- Jika dibandingkan dengan patokan blended token, Anthropic·OpenAI berada di sekitar $2.80/M, sedangkan DeepSeek $0.094/M, sehingga ada selisih harga sekitar 30 kali
- Model frontier memang lebih kuat, tetapi untuk penggunaan coding, model OSS sudah cukup baik dan kesenjangan bisa ditutup bila dipadukan dengan engineer yang kompeten
- Alasan kenaikan harga tidak bisa berlangsung tanpa batas adalah karena kombinasi outsourcing+LocalAI berperan sebagai batas atas harga
Tren kenaikan biaya inferensi frontier lab
- Berlawanan dengan anggapan umum bahwa biaya inferensi sedang turun, harga dari frontier lab AS menunjukkan tren kenaikan yang jelas
- Peluncuran GPT-5.5 ($5/$30) terjadi 2 bulan setelah GPT-5.4, dan harga API secara keseluruhan naik 2 kali lipat
- Dibanding GPT-5 ($1.25/$10) 8 bulan lalu, harganya menjadi lebih dari 3 kali lebih mahal
- Gemini 3.5 Flash ($1.50/$9.00) naik 3 kali lipat dibanding model sebelumnya Gemini-3-flash-preview ($0.50/$3.00)
- Gemini-3-flash-preview sendiri juga sudah naik dibanding 2.5 Flash ($0.30/$2.50)
- Anthropic Opus-4.7 memperkenalkan tokenizer baru yang membuat konsumsi token naik 32~47%, sehingga biaya efektif meningkat dibanding Opus-4.6 sebelumnya
Perbandingan model frontier tertutup vs model open source
- Perbandingan berdasarkan rasio konsumsi blended token: diasumsikan output 50k token per 1M token input(+cache) (kurang dari sekitar 5%)
- Loop agen skala besar memiliki banyak turn sehingga porsi baca besar, jadi ini adalah estimasi konservatif
- Perbandingan harga blended rata-rata per penyedia setelah memperhitungkan caching (sumber: openrouter.ai)
-
Perbandingan harga per penyedia
- Anthropic: input $1.57 / output $25.00 / cache hit rate 79.6% → blended $2.82
- OpenAI: input $1.30 / output $30.22 / cache hit rate 84.8% → blended $2.80
- DeepSeek: input $0.055 / output $0.870 / cache hit rate 88.1% → blended $0.094
- Saat ini model frontier tertutup memang lebih kuat daripada model terbaru DeepSeek, tetapi masih dipertanyakan apakah kesenjangan itu cukup untuk membenarkan selisih harga 30 kali
- OSS LLM tidak harus setara frontier; cukup memiliki performa yang memadai untuk coding, dan level itu sudah tercapai
Tren peningkatan konsumsi token
- Tren tokenmaxxing dalam beberapa bulan dan tahun terakhir makin cepat (lihat blog Pragmatic Engineer)
- Ada konsensus di antara engineer yang kompeten bahwa menjadikan tokenmaxxing sebagai tujuan adalah hal yang keliru, meski itu topik terpisah
- Kenaikan besar dalam konsumsi token juga terlihat dari kelangkaan GPU yang terus berlanjut
- Kenaikan konsumsi token dan kenaikan harga per token terjadi bersamaan, selaras dengan strategi monetisasi frontier lab AS
(manusia + LLM semi-frontier) vs LLM frontier
- Ada analisis terpisah yang membandingkan engineer manusia dan agen AI pada 12 sumbu (signalbloom.ai)
- Kesimpulannya: agen AI sudah melampaui manusia dalam coding, dan diperkirakan segera melampaui manusia juga dalam debugging yang ruang lingkupnya terbatas
- Namun, dalam kemampuan inti lain yang dibutuhkan untuk engineering yang baik, AI masih tertinggal
- Memori jangka panjang (long-term memory)
- Meta memory: kemampuan membedakan dengan jelas apa yang diketahui dan tidak diketahui
- Evidential Sufficiency Assessment: menilai apakah bukti yang ada cukup untuk bertindak
- Arsitektur statistik saat ini masih perlu diperkuat atau digantikan oleh terobosan lain
- Kemampuan menyelesaikan task dan otonomi AI bukan hal yang sama
Skenario titik persilangan biaya
-
Perbandingan inti
- Analisis titik ketika kombinasi engineer dari negara berbiaya rendah + model yang cukup mumpuni memiliki keunggulan value for money dibanding model frontier papan atas
- Variabel: gaji engineer, laju pertumbuhan gaji, jumlah token awal, laju pertumbuhan token, harga frontier, laju perubahan harga frontier, harga DeepSeek, periode
-
Hasil
- Persilangan terjadi pada bulan ke-11, ketika biaya inferensi frontier melampaui biaya kombinasi engineer+DeepSeek ($1,116.61/bulan)
Opini dan keterbatasan
- Grafik ini mengandung asumsi penyederhanaan
- Variabel seperti harga inferensi masa depan dan tren konsumsi token
- Reflexivity: pelaku pasar mengubah perilaku mereka berdasarkan hasil yang diamati
- Faktor-faktor berikut belum dimasukkan, dan jika dimasukkan akan makin menguntungkan model lokal
- Kecepatan peningkatan performa model lokal yang tinggi
- Tambahan hardware inferensi yang akan masuk dalam beberapa bulan dan tahun ke depan
- Pokok argumennya: kenaikan biaya AI, di atas tingkat tertentu, menjadi cash burn yang mengkhawatirkan bagi perusahaan dan mengambil porsi besar dari total pengeluaran
- Karena itu, terbentuk batas atas pada besarnya dan kecepatan kenaikan harga frontier lab
1 komentar
Komentar Hacker News
Saat membahas harga LLM, orang melewatkan inti persoalannya. Harga token berbasis langganan 10–40x lebih murah daripada harga API, jadi langganan Claude seharga $90 per bulan bila dikonversi ke harga token API setara dengan hampir $1000–$4000
Kedua, kemampuan “operator” yang menangani model membuat perbedaan hasil yang sangat besar. Developer senior berpengalaman yang pandai menulis prompt dan punya inisiatif tinggi menghasilkan hasil yang jauh lebih baik daripada anggota tim yang kurang motivasi dan kurang kemampuan dasar
Terakhir, ada perbedaan besar dalam kemampuan, determinisme, dan penanganan error antara model frontier kelas 5T seperti Opus dan model distilasi kecil DeepSeek yang hanya tampak bagus di benchmark
Jadi perusahaan besar membayar jauh lebih mahal daripada paket langganan diskon
Dan pernyataan bahwa model lokal itu “didistilasi dari DeepSeek” tampaknya keliru. Model lokal juga bukan cuma bagus di benchmark, dan Qwen 3.6 adalah model yang cukup bagus. Memang bukan Opus, tapi jauh lebih cepat, dan kecepatan itu sendiri juga merupakan salah satu kualitas
Perusahaan-perusahaan ini menanggung kerugian besar dan punya utang serta komitmen senilai ratusan miliar dolar. Tak lama lagi mereka harus membuka keran monetisasi
Ini terasa seperti melihat pohon tapi tidak melihat hutannya. Bekerja dengan ChatGPT terasa menyeramkan mirip seperti dulu bekerja dengan developer offshore India di era enterprise. Kalau diarahkan secara eksplisit mereka produktif, tapi kalau dibiarkan sendiri sering muncul momen WTF
LLM kemungkinan besar akan menggantikan developer outsourcing. Karyawan internal yang paham konteks bisa memakai LLM untuk mengerjakan hal-hal yang dulu dikerjakan developer offshore
Perusahaan selalu ingin menurunkan biaya marjinal. Mereka akan mempekerjakan 1 software architect di AS untuk menulis spesifikasi, lalu mempekerjakan 10 developer di India untuk mengawasi 100 agen
Berbeda dengan developer remote, masalah outsourcing adalah untuk menjalankannya dengan baik benar-benar dibutuhkan manajer dan pemimpin teknis yang sangat hebat.
Dari pengalaman saya, untuk mendapatkan hasil yang efektif, Anda harus menulis dokumen desain dan spesifikasi kerja yang sangat rinci. Biasanya harus sedetail prompt yang efektif.
Kalau spesifikasi sedetail itu sudah ditulis, lalu untuk apa developer outsourcing dan model tercanggih diperlukan?
Perusahaan dengan pemimpin produk/proyek yang kuat dan mengawasi dengan sangat teliti mungkin bisa membentuk generasi developer baru, tetapi sebagian perusahaan lain akan percaya pada slogan pemasaran lalu gagal ketika software mereka menjadi mustahil dipelihara.
Bahkan 10 tahun dari sekarang, saya rasa jumlah developer akan mirip dengan sekarang, sambil membuat lebih banyak produk. AI akan dipakai untuk otomatisasi yang bermakna di area terisolasi tertentu, tetapi sebagian besar pengembangan software akan dilakukan pada tingkat abstraksi yang lebih tinggi yang mengekspresikan konsep yang sama dengan lebih sedikit sampah teks.
Inti dari kode akan lebih berfokus pada pengodean dan pengungkapan secara konkret kompleksitas kasus batas yang aneh.
Saat pertama kali mulai mengembangkan software, saya mengerjakan MUD yang sangat berantakan yang diwariskan lewat tangan banyak orang. Sulit membayangkan siapa yang dengan sukarela mau membongkar gumpalan lumpur dan spaghetti code yang dibuat AI tanpa pengawasan dan revisi yang ketat.
Inti pengembangan software selalu adalah pemecahan masalah, atau lebih tepatnya mengidentifikasi masalah. Seiring waktu, kita terus menyingkirkan hal-hal remeh untuk bisa fokus ke titik itu. Arus ini akan terus berlanjut, berevolusi menuju bahasa yang lebih ringkas dan abstrak untuk menyatakan masalah, sementara alur logika yang rumit, bagian driver, dan matematika akan makin banyak diisolasi ke library dan tool.
Bahkan jika para engineer kooperatif, manajer atau pemilik bisnis enggan melakukan kolaborasi erat dan memaksakan cara kerja yang berjarak. Misalnya hanya telepon seminggu sekali.
Saya pernah mengalaminya langsung. Suatu kali kami menghabiskan £300k untuk tim developer outsourcing, untungnya itu bukan uang saya, dan pada akhirnya kami tidak menerima apa pun. Sebagian besar waktu habis hanya untuk menyelaraskan arah pekerjaan.
Saya dan partner saya cukup tahu apa yang kami inginkan dan mencoba lebih sering sinkron agar upaya kami sejalan, tetapi manajer mereka terus menghalangi. Inilah model bisnis konsultansi.
Pada karyawan remote penuh waktu, insentifnya justru kebalikan. Mereka benar-benar karyawan full-time, tidak ada lapisan manajemen yang menghambat komunikasi, dan kecuali mereka pemalas atau penipu, mereka pasti lebih ingin memecahkan masalah menarik daripada bermalas-malasan.
Saya rasa di situlah asumsi tulisan aslinya meleset. Perbedaan antara DeepSeek dan model tercanggih biasanya bukan sesuatu yang bisa ditutupi oleh outsourcing berkualitas rendah. Pada akhirnya Anda tetap harus membayar engineer outsourcing yang sangat terampil, dan mereka mungkin tidak jauh lebih murah. Sejak awal pun outsourcing dilakukan bukan hanya karena biaya, tetapi juga karena kapabilitas dan kapasitas.
Segala sesuatu harus dispesifikasikan sampai tingkat detail yang tepat, dan pada titik itu kemungkinan besar LLM juga bisa mengerjakannya dengan cukup baik. Selain itu, banyak tim outsourcing membangun dengan cara yang sama sekali berbeda dari tim internal, dan perbedaan standar hasil serta kecepatan pengiriman bersifat mutlak.
Ketika semuanya berubah secepat ini, saya juga bertanya-tanya mengapa saya harus menghabiskan waktu dan uang saya untuk melatih pegawai orang lain agar mengikuti tren terbaru.
Saya punya teman seorang eksekutif di perusahaan software AS, dan dia sedang bersiap memecat beberapa tim programmer di kantor cabang Eropa Timur lalu menggantinya dengan sejumlah kecil programmer AS dan AI. Katanya, pendekatan itu jauh lebih produktif dan membuat fitur baru jauh lebih cepat.
Kalau diterapkan ke manufaktur, strategi yang mengutamakan robot seharusnya tidak hanya bertujuan memulangkan manufaktur ke dalam negeri, tetapi menargetkan sesuatu yang lebih tinggi: menjadi tujuan manufaktur outsourcing yang baru.
Karena itu, perusahaan kecil dan menengah mungkin tidak perlu lagi memiliki sebanyak sekarang engineer internal, staf keuangan, dan personel pemasaran.
Masa depan AI tercanggih Amerika bukanlah panggilan API, melainkan membawa pekerjaan ke OAI/Anthropic seperti ke konsultan atau vendor eksternal, lalu menerima hasil mirip produk tanpa melihat banyak artefak kerja di tengah proses.
Ini tak terelakkan karena gabungan ancaman distilasi dan upaya pengembangan lingkungan eksekusi tertutup yang diperlukan untuk mendorong performa terdepan.
OAI/Anthropic akan berusaha merebut 100% semua pekerjaan orang dan “memiliki” tenaga kerja. Dalam hal ini pihak Tiongkok adalah tokoh baik.
Tetapi yang tidak mereka sadari adalah bahwa mendefinisikan masalah itu lebih sulit daripada solusinya sendiri.
Saya benar-benar sudah mencoba segala cara untuk memakai model lokal. Sudah mencoba berbagai lingkungan eksekusi, alat, keterampilan, prompt, dan lain-lain
Tapi kalau membandingkan Claude Code dan model Anthropic, atau Codex dan GPT 5.5, dengan Qwen, GLM, Gemma dalam lingkungan eksekusi yang sama, model terdepan unggul telak. Sekarang saya sudah tidak paham lagi apa gunanya model non-terdepan. Waktu yang terbuang lebih besar daripada waktu yang dihemat
Untuk coding dalam cakupan sempit, misalnya menulis fungsi tertentu, memang lambat tapi tetap bisa. Namun untuk penggunaan chat LLM umum di hardware konsumen kelas atas, selain dari sisi biaya, masih cukup kompetitif
https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
Jika biaya inferensi terus turun, seperti yang sudah terjadi beberapa tahun terakhir, maka pada akhir tahun ini kita kemungkinan bisa menjalankan model terdepan hari ini di laptop
Sebagai software engineer, itu praktis sudah lebih dari cukup sampai sulit dihabiskan, dan jika melihat peningkatan efisiensi, harganya sangat murah
Lagi pula Claude/Codex sudah bekerja dengan baik dan membaik tiap bulan, jadi siapa yang mau repot mengutak-atik lingkungan eksekusi atau mendefinisikan orkestrasi agen
Skenario yang lebih mungkin adalah lapisan bawah menghilang, sementara lapisan atas menjadi lebih produktif melalui model terdepan
Semakin lemah developernya, semakin tinggi kemampuan AI yang dibutuhkan. Premis tulisan ini tidak berlaku karena mencampuradukkan gagasan bahwa developer lemah dengan AI lemah lebih baik daripada developer kuat dengan AI yang nyaris otonom
Produk yang dibuat developer lemah dengan AI terdepan pun sekarang sudah kalah dibanding developer cakap dengan AI lemah dari dua tahun lalu
Lebih jelas lagi, developer kuat sudah bisa memanfaatkan AI untuk membuat produk berkualitas tinggi sejak dua tahun lalu. Dengan AI terbaru pun developer lemah masih kesulitan, tetapi developer kuat bisa mendelegasikan lebih banyak pekerjaan ke AI yang lebih kuat dan mendorong produktivitas lebih jauh lagi
Organisasi mimpi buruk yang penuh kontraktor tanpa pengawasan atau junior hasil overhiring akan jauh lebih mematikan di masa seperti sekarang
Saya terus melihat narasi yang menjadikan DeepSeek sebagai contoh open-source LLM, tetapi mereka mensubsidi token dalam jumlah besar pada harga pokok. Kalau tidak malas dan berpikir kritis, mudah memahami mengapa mereka melakukan itu
Terutama dalam situasi ketika hardware inferensi dibatasi ketat karena risiko geopolitik, memakai AI lokal yang setara dengan model terdepan masih terlalu mahal dan tidak efisien
Saya juga sangat meragukan klaim bahwa LLM lokal dalam jangka panjang bisa mengancam perusahaan model terdepan ini
Alasan token akan menjadi mahal adalah karena mereka mulai menguasai pasar, dan akan memakai keunggulan itu untuk membatasi distribusi hardware di dalam maupun luar perbatasan
Untuk sebagian workflow, LLM lokal kemungkinan akan lebih banyak dipakai, tetapi itu bukan pekerjaan yang membutuhkan level model terdepan, dan juga akan sulit mengalahkan harga yang ditawarkan versi model terdepan yang lebih ringan dan kecil untuk merebut long tail
Kesan saya, DeepSeek merancang v4 khusus untuk inferensi murah, dan tampaknya mereka tidak merugi meski harganya 75% lebih rendah
Menurut saya, pengalaman kualitas dan nilai pribadi lebih penting daripada biaya engineer. Dalam beberapa tahun terakhir saya terlalu sering melihat jalan pintas dalam pekerjaan outsourcing, dan AI juga sangat suka jalan pintas. Kombinasi keduanya tidak sepadan dengan penghematan biaya
Jika Anda menghargai hasil kerja berkualitas tinggi dan kebanggaan atas pekerjaan sendiri, tenaga outsourcing bukanlah solusinya. Biaya mereka rendah justru karena umumnya mereka tidak memberi perhatian yang teliti pada pekerjaannya
Sebaliknya, kalau yang penting hanya selesai entah bagaimana dan Anda tidak peduli apakah hasilnya benar atau tidak, mungkin memang tidak ada cara yang lebih baik selain mengeluarkan uang sesedikit mungkin
Ada bagian yang tidak dibahas tulisan ini. Engineer yang bagus tidak menghabiskan sebagian besar waktunya untuk coding itu sendiri dalam proyek yang sudah ada, dibanding tugas lain. Engineer yang bagus memahami sistem dari ujung ke ujung. Developer offshore lebih buruk daripada Llama3