Kombinasi tenaga outsourcing + LocalAI akan segera lebih ekonomis daripada frontier lab

(signalbloom.ai)

14 poin oleh GN⁺ 2026-05-28 | 2 komentar | Bagikan ke WhatsApp

Di tengah harga API frontier lab AS yang terus naik, kombinasi engineer dari negara berbiaya rendah dan model open source seperti DeepSeek muncul sebagai alternatif yang ekonomis
Model frontier terbaru seperti GPT-5.5, Gemini 3.5 Flash, dan Opus-4.7 melakukan kenaikan harga 2~3 kali lipat atau peningkatan konsumsi token
Jika dibandingkan dengan patokan blended token, Anthropic·OpenAI berada di sekitar $2.80/M, sedangkan DeepSeek $0.094/M, sehingga ada selisih harga sekitar 30 kali
Model frontier memang lebih kuat, tetapi untuk penggunaan coding, model OSS sudah cukup baik dan kesenjangan bisa ditutup bila dipadukan dengan engineer yang kompeten
Alasan kenaikan harga tidak bisa berlangsung tanpa batas adalah karena kombinasi outsourcing+LocalAI berperan sebagai batas atas harga

Tren kenaikan biaya inferensi frontier lab

Berlawanan dengan anggapan umum bahwa biaya inferensi sedang turun, harga dari frontier lab AS menunjukkan tren kenaikan yang jelas
Peluncuran GPT-5.5 ($5/$30) terjadi 2 bulan setelah GPT-5.4, dan harga API secara keseluruhan naik 2 kali lipat
- Dibanding GPT-5 ($1.25/$10) 8 bulan lalu, harganya menjadi lebih dari 3 kali lebih mahal
Gemini 3.5 Flash ($1.50/$9.00) naik 3 kali lipat dibanding model sebelumnya Gemini-3-flash-preview ($0.50/$3.00)
- Gemini-3-flash-preview sendiri juga sudah naik dibanding 2.5 Flash ($0.30/$2.50)
Anthropic Opus-4.7 memperkenalkan tokenizer baru yang membuat konsumsi token naik 32~47%, sehingga biaya efektif meningkat dibanding Opus-4.6 sebelumnya

Perbandingan model frontier tertutup vs model open source

Perbandingan berdasarkan rasio konsumsi blended token: diasumsikan output 50k token per 1M token input(+cache) (kurang dari sekitar 5%)
- Loop agen skala besar memiliki banyak turn sehingga porsi baca besar, jadi ini adalah estimasi konservatif
Perbandingan harga blended rata-rata per penyedia setelah memperhitungkan caching (sumber: openrouter.ai)
Perbandingan harga per penyedia
- Anthropic: input $1.57 / output $25.00 / cache hit rate 79.6% → blended $2.82
- OpenAI: input $1.30 / output $30.22 / cache hit rate 84.8% → blended $2.80
- DeepSeek: input $0.055 / output $0.870 / cache hit rate 88.1% → blended $0.094
Saat ini model frontier tertutup memang lebih kuat daripada model terbaru DeepSeek, tetapi masih dipertanyakan apakah kesenjangan itu cukup untuk membenarkan selisih harga 30 kali
OSS LLM tidak harus setara frontier; cukup memiliki performa yang memadai untuk coding, dan level itu sudah tercapai

Tren peningkatan konsumsi token

Tren tokenmaxxing dalam beberapa bulan dan tahun terakhir makin cepat (lihat blog Pragmatic Engineer)
Ada konsensus di antara engineer yang kompeten bahwa menjadikan tokenmaxxing sebagai tujuan adalah hal yang keliru, meski itu topik terpisah
Kenaikan besar dalam konsumsi token juga terlihat dari kelangkaan GPU yang terus berlanjut
Kenaikan konsumsi token dan kenaikan harga per token terjadi bersamaan, selaras dengan strategi monetisasi frontier lab AS

(manusia + LLM semi-frontier) vs LLM frontier

Ada analisis terpisah yang membandingkan engineer manusia dan agen AI pada 12 sumbu (signalbloom.ai)
Kesimpulannya: agen AI sudah melampaui manusia dalam coding, dan diperkirakan segera melampaui manusia juga dalam debugging yang ruang lingkupnya terbatas
Namun, dalam kemampuan inti lain yang dibutuhkan untuk engineering yang baik, AI masih tertinggal
- Memori jangka panjang (long-term memory)
- Meta memory: kemampuan membedakan dengan jelas apa yang diketahui dan tidak diketahui
- Evidential Sufficiency Assessment: menilai apakah bukti yang ada cukup untuk bertindak
Arsitektur statistik saat ini masih perlu diperkuat atau digantikan oleh terobosan lain
Kemampuan menyelesaikan task dan otonomi AI bukan hal yang sama

Skenario titik persilangan biaya

Perbandingan inti
- Analisis titik ketika kombinasi engineer dari negara berbiaya rendah + model yang cukup mumpuni memiliki keunggulan value for money dibanding model frontier papan atas
- Variabel: gaji engineer, laju pertumbuhan gaji, jumlah token awal, laju pertumbuhan token, harga frontier, laju perubahan harga frontier, harga DeepSeek, periode
Hasil
- Persilangan terjadi pada bulan ke-11, ketika biaya inferensi frontier melampaui biaya kombinasi engineer+DeepSeek ($1,116.61/bulan)

Opini dan keterbatasan

Grafik ini mengandung asumsi penyederhanaan
- Variabel seperti harga inferensi masa depan dan tren konsumsi token
- Reflexivity: pelaku pasar mengubah perilaku mereka berdasarkan hasil yang diamati
Faktor-faktor berikut belum dimasukkan, dan jika dimasukkan akan makin menguntungkan model lokal
- Kecepatan peningkatan performa model lokal yang tinggi
- Tambahan hardware inferensi yang akan masuk dalam beberapa bulan dan tahun ke depan
Pokok argumennya: kenaikan biaya AI, di atas tingkat tertentu, menjadi cash burn yang mengkhawatirkan bagi perusahaan dan mengambil porsi besar dari total pengeluaran
Karena itu, terbentuk batas atas pada besarnya dan kecepatan kenaikan harga frontier lab

2 komentar

hmmhmmhm 2026-05-29

Untuk coding, jika memakai Qwen 3.6 35B A3B dan untuk riset memakai Gemma 26B A4B, rasanya hasilnya lumayan keluar, tetapi saya berharap akan muncul lebih banyak perangkat on-device yang murah. Karena setidaknya harus Apple M4 Pro ke atas atau RTX 5070 Ti 16GB ke atas supaya bisa jalan pas-pasan....

GN⁺ 2026-05-28

Komentar Hacker News

Saat membahas harga LLM, orang melewatkan inti persoalannya. Harga token berbasis langganan 10–40x lebih murah daripada harga API, jadi langganan Claude seharga $90 per bulan bila dikonversi ke harga token API setara dengan hampir $1000–$4000
Kedua, kemampuan “operator” yang menangani model membuat perbedaan hasil yang sangat besar. Developer senior berpengalaman yang pandai menulis prompt dan punya inisiatif tinggi menghasilkan hasil yang jauh lebih baik daripada anggota tim yang kurang motivasi dan kurang kemampuan dasar
Terakhir, ada perbedaan besar dalam kemampuan, determinisme, dan penanganan error antara model frontier kelas 5T seperti Opus dan model distilasi kecil DeepSeek yang hanya tampak bagus di benchmark
- Baru tahu hari ini, paket Anthropic Enterprise yang dipakai perusahaan besar karena fitur governance dan audit log dikenai biaya tarif token API ditambah $20 per kursi per bulan
  Jadi perusahaan besar membayar jauh lebih mahal daripada paket langganan diskon
- Penasaran apa dasar menyebut Opus sebagai model 5T
  Dan pernyataan bahwa model lokal itu “didistilasi dari DeepSeek” tampaknya keliru. Model lokal juga bukan cuma bagus di benchmark, dan Qwen 3.6 adalah model yang cukup bagus. Memang bukan Opus, tapi jauh lebih cepat, dan kecepatan itu sendiri juga merupakan salah satu kualitas
- Model yang bukan state of the art pun terus membaik. Jika seseorang bisa menyelesaikan 90% pekerjaan dengan DeepSeek seharga $100, lalu menuntaskan sisanya dengan Anthropic atau OpenAI seharga $100, kemungkinan besar dia akan memilih itu daripada membayar $1000 ke Anthropic atau OpenAI
- Harga token langganan yang 10–40x lebih murah daripada API itu fenomena sementara. Dalam beberapa bulan ke depan, kita harus memperkirakan kenaikan harga besar, pembatasan penggunaan yang ketat, atau keduanya
  Perusahaan-perusahaan ini menanggung kerugian besar dan punya utang serta komitmen senilai ratusan miliar dolar. Tak lama lagi mereka harus membuka keran monetisasi
- Setelah tahu bahwa langganan Claude $90 per bulan setara dengan penggunaan API senilai $1000–$4000, apakah menurutmu tidak rasional melihat struktur ini sebagai sesuatu yang tidak berkelanjutan?
Ini terasa seperti melihat pohon tapi tidak melihat hutannya. Bekerja dengan ChatGPT terasa menyeramkan mirip seperti dulu bekerja dengan developer offshore India di era enterprise. Kalau diarahkan secara eksplisit mereka produktif, tapi kalau dibiarkan sendiri sering muncul momen WTF
LLM kemungkinan besar akan menggantikan developer outsourcing. Karyawan internal yang paham konteks bisa memakai LLM untuk mengerjakan hal-hal yang dulu dikerjakan developer offshore
- Dari semua momen WTF itu, berapa banyak yang semata-mata karena mereka “tidak berada di ruangan saat keputusan itu diambil”? Sebagian besar software enterprise penuh dengan momen WTF yang memang diminta karena berbagai kompromi
- Di luar negaramu juga ada developer berbakat yang cukup fasih berbahasa dan bersedia menerima bayaran lebih rendah. Ada banyak alasan mengapa jumlah developer seperti itu akan terus bertambah
- Kalau melihat jumlah tim outsourcing yang mengemis pekerjaan di LinkedIn, ini memang terasa cocok
- Para “developer offshore India” juga bukan lawan yang mudah. Mereka juga punya akses ke model GPT yang sama, dan biayanya mungkin sepersepuluh dari gaji median di AS
  Perusahaan selalu ingin menurunkan biaya marjinal. Mereka akan mempekerjakan 1 software architect di AS untuk menulis spesifikasi, lalu mempekerjakan 10 developer di India untuk mengawasi 100 agen
Berbeda dengan developer remote, masalah outsourcing adalah untuk menjalankannya dengan baik benar-benar dibutuhkan manajer dan pemimpin teknis yang sangat hebat.
Dari pengalaman saya, untuk mendapatkan hasil yang efektif, Anda harus menulis dokumen desain dan spesifikasi kerja yang sangat rinci. Biasanya harus sedetail prompt yang efektif.
Kalau spesifikasi sedetail itu sudah ditulis, lalu untuk apa developer outsourcing dan model tercanggih diperlukan?
- Yang menarik, masalah outsourcing sama dengan masalah AI, dan semuanya mengingatkan pada awal 2000-an. Perusahaan-perusahaan terpukau melihat seberapa banyak uang yang bisa dihemat tanpa menyadari kerusakan yang ditimbulkan pada produk mereka.
  Perusahaan dengan pemimpin produk/proyek yang kuat dan mengawasi dengan sangat teliti mungkin bisa membentuk generasi developer baru, tetapi sebagian perusahaan lain akan percaya pada slogan pemasaran lalu gagal ketika software mereka menjadi mustahil dipelihara.
  Bahkan 10 tahun dari sekarang, saya rasa jumlah developer akan mirip dengan sekarang, sambil membuat lebih banyak produk. AI akan dipakai untuk otomatisasi yang bermakna di area terisolasi tertentu, tetapi sebagian besar pengembangan software akan dilakukan pada tingkat abstraksi yang lebih tinggi yang mengekspresikan konsep yang sama dengan lebih sedikit sampah teks.
  Inti dari kode akan lebih berfokus pada pengodean dan pengungkapan secara konkret kompleksitas kasus batas yang aneh.
  Saat pertama kali mulai mengembangkan software, saya mengerjakan MUD yang sangat berantakan yang diwariskan lewat tangan banyak orang. Sulit membayangkan siapa yang dengan sukarela mau membongkar gumpalan lumpur dan spaghetti code yang dibuat AI tanpa pengawasan dan revisi yang ketat.
  Inti pengembangan software selalu adalah pemecahan masalah, atau lebih tepatnya mengidentifikasi masalah. Seiring waktu, kita terus menyingkirkan hal-hal remeh untuk bisa fokus ke titik itu. Arus ini akan terus berlanjut, berevolusi menuju bahasa yang lebih ringkas dan abstrak untuk menyatakan masalah, sementara alur logika yang rumit, bagian driver, dan matematika akan makin banyak diisolasi ke library dan tool.
- Seluruh model bisnis developer atau perusahaan “outsourcing” adalah menagih orang secara berlebihan. Mereka bilang “4 engineer ditugaskan ke proyek ini”, tetapi 4 orang itu juga sedang mengerjakan 5 proyek lain.
  Bahkan jika para engineer kooperatif, manajer atau pemilik bisnis enggan melakukan kolaborasi erat dan memaksakan cara kerja yang berjarak. Misalnya hanya telepon seminggu sekali.
  Saya pernah mengalaminya langsung. Suatu kali kami menghabiskan £300k untuk tim developer outsourcing, untungnya itu bukan uang saya, dan pada akhirnya kami tidak menerima apa pun. Sebagian besar waktu habis hanya untuk menyelaraskan arah pekerjaan.
  Saya dan partner saya cukup tahu apa yang kami inginkan dan mencoba lebih sering sinkron agar upaya kami sejalan, tetapi manajer mereka terus menghalangi. Inilah model bisnis konsultansi.
  Pada karyawan remote penuh waktu, insentifnya justru kebalikan. Mereka benar-benar karyawan full-time, tidak ada lapisan manajemen yang menghambat komunikasi, dan kecuali mereka pemalas atau penipu, mereka pasti lebih ingin memecahkan masalah menarik daripada bermalas-malasan.
- Outsourcing pada umumnya memberi Anda persis sesuai dengan yang Anda bayar. Dalam beberapa hal, ini bahkan lebih transparan daripada pendekatan lain. Hanya saja transparansi itu, yaitu harga kualitas, kadang tidak tersampaikan dari eksekutif atau organisasi pembelian yang mengambil keputusan ke tim yang benar-benar harus bekerja dalam pengaturan terdistribusi.
  Saya rasa di situlah asumsi tulisan aslinya meleset. Perbedaan antara DeepSeek dan model tercanggih biasanya bukan sesuatu yang bisa ditutupi oleh outsourcing berkualitas rendah. Pada akhirnya Anda tetap harus membayar engineer outsourcing yang sangat terampil, dan mereka mungkin tidak jauh lebih murah. Sejak awal pun outsourcing dilakukan bukan hanya karena biaya, tetapi juga karena kapabilitas dan kapasitas.
- Saya juga persis berpikir seperti ini.
  Segala sesuatu harus dispesifikasikan sampai tingkat detail yang tepat, dan pada titik itu kemungkinan besar LLM juga bisa mengerjakannya dengan cukup baik. Selain itu, banyak tim outsourcing membangun dengan cara yang sama sekali berbeda dari tim internal, dan perbedaan standar hasil serta kecepatan pengiriman bersifat mutlak.
  Ketika semuanya berubah secepat ini, saya juga bertanya-tanya mengapa saya harus menghabiskan waktu dan uang saya untuk melatih pegawai orang lain agar mengikuti tren terbaru.
- Masalah saya hanyalah kurangnya ownership. Kecuali itu perusahaan outsourcing yang kecil dan fokus, dari sudut pandang perusahaan lebih mudah untuk sekadar mengirim keluar, terlepas dari kualitas atau kemudahan perawatan. Tentu saja, sampel pengalaman pribadi saya kecil.
Saya punya teman seorang eksekutif di perusahaan software AS, dan dia sedang bersiap memecat beberapa tim programmer di kantor cabang Eropa Timur lalu menggantinya dengan sejumlah kecil programmer AS dan AI. Katanya, pendekatan itu jauh lebih produktif dan membuat fitur baru jauh lebih cepat.
- Yang ini terdengar lebih masuk akal. Bottleneck saya sedang bergeser dari “memahami kode” ke memahami pengguna. Yang terakhir itu bahkan bisa divalidasi oleh orang yang bukan programmer.
- Ini pembalikan yang menarik.
  Kalau diterapkan ke manufaktur, strategi yang mengutamakan robot seharusnya tidak hanya bertujuan memulangkan manufaktur ke dalam negeri, tetapi menargetkan sesuatu yang lebih tinggi: menjadi tujuan manufaktur outsourcing yang baru.
- Kira-kira butuh berapa lama sampai orang itu kembali ke realitas dan melakukan PHK massal terhadap para agen? :-)
- Tulisannya benar soal outsourcing, tetapi menurut saya bukan karena kontraktor offshore murah. Para spesialis bagus akan bekerja lebih mandiri, dan berkat AI mereka akan bisa melayani lebih banyak klien.
  Karena itu, perusahaan kecil dan menengah mungkin tidak perlu lagi memiliki sebanyak sekarang engineer internal, staf keuangan, dan personel pemasaran.
Masa depan AI tercanggih Amerika bukanlah panggilan API, melainkan membawa pekerjaan ke OAI/Anthropic seperti ke konsultan atau vendor eksternal, lalu menerima hasil mirip produk tanpa melihat banyak artefak kerja di tengah proses.
Ini tak terelakkan karena gabungan ancaman distilasi dan upaya pengembangan lingkungan eksekusi tertutup yang diperlukan untuk mendorong performa terdepan.
OAI/Anthropic akan berusaha merebut 100% semua pekerjaan orang dan “memiliki” tenaga kerja. Dalam hal ini pihak Tiongkok adalah tokoh baik.
- Tidak. Melempar proyek ke balik tembok hampir selalu berakhir bencana. Kebutuhan tidak pernah cukup jelas.
- Semoga pendekatan seperti itu berhasil. Ini mengingatkan saya pada inspirasi dari bahasa pemrograman deklaratif seperti Prolog. Idenya adalah mendeklarasikan masalah agar mesin bisa menyelesaikannya, sebagai lawan dari pendekatan imperatif yang memberi tahu mesin apa yang harus dilakukan.
  Tetapi yang tidak mereka sadari adalah bahwa mendefinisikan masalah itu lebih sulit daripada solusinya sendiri.
Saya benar-benar sudah mencoba segala cara untuk memakai model lokal. Sudah mencoba berbagai lingkungan eksekusi, alat, keterampilan, prompt, dan lain-lain
Tapi kalau membandingkan Claude Code dan model Anthropic, atau Codex dan GPT 5.5, dengan Qwen, GLM, Gemma dalam lingkungan eksekusi yang sama, model terdepan unggul telak. Sekarang saya sudah tidak paham lagi apa gunanya model non-terdepan. Waktu yang terbuang lebih besar daripada waktu yang dihemat
- Untuk coding berbasis agen, saya 100% setuju. Pada coding skala besar, model lokal lebih buruk, lebih lambat, dan lebih mahal
  Untuk coding dalam cakupan sempit, misalnya menulis fungsi tertentu, memang lambat tapi tetap bisa. Namun untuk penggunaan chat LLM umum di hardware konsumen kelas atas, selain dari sisi biaya, masih cukup kompetitif
  https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- Model lokal memang tertinggal 3–6 bulan dari model terdepan terbaru, tetapi punya keunggulan besar karena Anda tidak perlu mengirim seluruh kekayaan intelektual ke pihak ketiga yang meragukan
  Jika biaya inferensi terus turun, seperti yang sudah terjadi beberapa tahun terakhir, maka pada akhir tahun ini kita kemungkinan bisa menjalankan model terdepan hari ini di laptop
- Saya juga sama. Kalau mendengar orang ribut soal mengeluarkan atau diganti biaya $200 per bulan untuk paket Codex atau Claude, rasanya melelahkan
  Sebagai software engineer, itu praktis sudah lebih dari cukup sampai sulit dihabiskan, dan jika melihat peningkatan efisiensi, harganya sangat murah
  Lagi pula Claude/Codex sudah bekerja dengan baik dan membaik tiap bulan, jadi siapa yang mau repot mengutak-atik lingkungan eksekusi atau mendefinisikan orkestrasi agen
- Saya sampai pada kesimpulan yang sama. Kalau memikirkan biaya per kueri, selalu memakai Opus adalah pilihan yang paling murah
- Intinya adalah jangan sampai secara sukarela membuat diri Anda bergantung pada perusahaan yang kepentingannya tidak sejalan dengan Anda
Skenario yang lebih mungkin adalah lapisan bawah menghilang, sementara lapisan atas menjadi lebih produktif melalui model terdepan
Semakin lemah developernya, semakin tinggi kemampuan AI yang dibutuhkan. Premis tulisan ini tidak berlaku karena mencampuradukkan gagasan bahwa developer lemah dengan AI lemah lebih baik daripada developer kuat dengan AI yang nyaris otonom
Produk yang dibuat developer lemah dengan AI terdepan pun sekarang sudah kalah dibanding developer cakap dengan AI lemah dari dua tahun lalu
Lebih jelas lagi, developer kuat sudah bisa memanfaatkan AI untuk membuat produk berkualitas tinggi sejak dua tahun lalu. Dengan AI terbaru pun developer lemah masih kesulitan, tetapi developer kuat bisa mendelegasikan lebih banyak pekerjaan ke AI yang lebih kuat dan mendorong produktivitas lebih jauh lagi
- Jarang sekali dalam hidup, tapi sekarang saya sangat bersyukur berada di tempat kerja yang kebanyakan diisi senior engineer yang kompeten
  Organisasi mimpi buruk yang penuh kontraktor tanpa pengawasan atau junior hasil overhiring akan jauh lebih mematikan di masa seperti sekarang
Saya terus melihat narasi yang menjadikan DeepSeek sebagai contoh open-source LLM, tetapi mereka mensubsidi token dalam jumlah besar pada harga pokok. Kalau tidak malas dan berpikir kritis, mudah memahami mengapa mereka melakukan itu
Terutama dalam situasi ketika hardware inferensi dibatasi ketat karena risiko geopolitik, memakai AI lokal yang setara dengan model terdepan masih terlalu mahal dan tidak efisien
Saya juga sangat meragukan klaim bahwa LLM lokal dalam jangka panjang bisa mengancam perusahaan model terdepan ini
Alasan token akan menjadi mahal adalah karena mereka mulai menguasai pasar, dan akan memakai keunggulan itu untuk membatasi distribusi hardware di dalam maupun luar perbatasan
Untuk sebagian workflow, LLM lokal kemungkinan akan lebih banyak dipakai, tetapi itu bukan pekerjaan yang membutuhkan level model terdepan, dan juga akan sulit mengalahkan harga yang ditawarkan versi model terdepan yang lebih ringan dan kecil untuk merebut long tail
- Ada sumber untuk klaim pertama itu?
  Kesan saya, DeepSeek merancang v4 khusus untuk inferensi murah, dan tampaknya mereka tidak merugi meski harganya 75% lebih rendah
- Penyedia lain yang menawarkan model DeepSeek di OpenRouter juga bisa memasang harga sangat rendah, jadi pernyataan bahwa mereka mensubsidi token pada harga pokok sepenuhnya salah. Penyedia itu juga tidak punya uang untuk subsidi
- Sepertinya tidak begitu. Setahu saya DeepSeek tidak merugi di inferensi
Menurut saya, pengalaman kualitas dan nilai pribadi lebih penting daripada biaya engineer. Dalam beberapa tahun terakhir saya terlalu sering melihat jalan pintas dalam pekerjaan outsourcing, dan AI juga sangat suka jalan pintas. Kombinasi keduanya tidak sepadan dengan penghematan biaya
Jika Anda menghargai hasil kerja berkualitas tinggi dan kebanggaan atas pekerjaan sendiri, tenaga outsourcing bukanlah solusinya. Biaya mereka rendah justru karena umumnya mereka tidak memberi perhatian yang teliti pada pekerjaannya
Sebaliknya, kalau yang penting hanya selesai entah bagaimana dan Anda tidak peduli apakah hasilnya benar atau tidak, mungkin memang tidak ada cara yang lebih baik selain mengeluarkan uang sesedikit mungkin
Ada bagian yang tidak dibahas tulisan ini. Engineer yang bagus tidak menghabiskan sebagian besar waktunya untuk coding itu sendiri dalam proyek yang sudah ada, dibanding tugas lain. Engineer yang bagus memahami sistem dari ujung ke ujung. Developer offshore lebih buruk daripada Llama3