2 poin oleh GN⁺ 3 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Uber membatasi pengeluaran token bulanan per alat AI coding menjadi $1.500 untuk semua karyawan, sebagai respons terhadap kenaikan biaya alat coding berbasis agen
  • Batas ini hanya berlaku untuk perangkat lunak coding berbasis agen seperti Cursor atau Claude Code, dan pengeluaran pada satu alat tidak memengaruhi anggaran alat lain
  • Uber menyusun anggaran AI 2026 pada 2025, lalu menghabiskan anggaran 2026 itu hanya dalam 4 bulan setelah agen coding yang banyak mengonsumsi token menjadi populer lebih cepat dari perkiraan
  • Dengan asumsi aktif menggunakan 2 alat, batas tahunan per engineer adalah $36.000, sekitar 11% dari kompensasi median software engineer Uber di AS sebesar $330.000 menurut Levels.fyi
  • Harga alat AI kini makin berbeda antara paket bersubsidi untuk pelanggan individu dan harga API yang benar-benar ditanggung perusahaan besar, dan batas Uber menunjukkan tolok ukur biaya yang masih dapat ditanggung perusahaan

Batas pengeluaran alat AI coding Uber

  • Uber membatasi pengeluaran token bulanan per alat AI coding menjadi $1.500 untuk semua karyawan
  • Batas ini diperkenalkan dalam beberapa bulan terakhir dan hanya berlaku untuk perangkat lunak coding berbasis agen seperti Cursor atau Claude Code dari Anthropic
  • Karena batas ini berlaku per alat, biaya yang dikeluarkan di satu alat tidak mengurangi anggaran alat lain
  • Batas $1.500 per bulan dinilai masuk akal sebagai respons terhadap pengeluaran berlebihan, dan dianggap lebih tepat daripada leaderboard tokenmaxxing yang mendorong karyawan berlomba meningkatkan penggunaan AI

Sinyal harga dan perhitungan biaya

  • Fakta bahwa Uber menghabiskan anggaran AI 2026 hanya dalam 4 bulan terkait dengan konteks bahwa saat menyusun anggaran pada 2025, sulit memprediksi popularitas agen coding yang banyak menggunakan token
  • Jika diasumsikan seorang engineer aktif memakai 2 alat, batas atasnya menjadi $3.000 per bulan atau $36.000 per tahun
  • Paket kompensasi tahunan median software engineer Uber di AS menurut Levels.fyi adalah $330.000, sehingga batas tahunan $36.000 setara dengan sekitar 11% dari angka tersebut
  • Untuk penggunaan pribadi, bahkan jika memakai token senilai $1.000 per bulan masing-masing di Anthropic dan OpenAI, biaya saat ini hanya sekitar $100 per penyedia berkat paket bersubsidi untuk pelanggan individu
  • Paket bersubsidi untuk penggunaan pribadi seperti itu tidak lagi diberikan kepada perusahaan besar seperti Uber, dan dengan pola penggunaan saat ini masih tersisa $500 per bulan per alat bahkan dalam batas Uber

1 komentar

 
GN⁺ 3 jam lalu
Komentar Hacker News
  • Penasaran apakah perusahaan AI akan mempertahankan harga per token seperti sekarang, atau akhirnya menurunkannya karena persaingan dari Tiongkok
    Individu dengan anggaran terbatas sudah mulai beralih ke model open-weight Tiongkok seperti DeepSeek
    Juga muncul pertanyaan apakah Tiongkok benar-benar mensubsidi perusahaan-perusahaan itu, atau sebenarnya biaya inferensi memang jauh lebih rendah dan Anthropic/OpenAI hanya mematok harga setinggi mungkin menjelang IPO di masa depan

    • Karena beberapa model bersifat open-weight dan juga tersedia dari penyedia pihak ketiga yang tidak punya alasan untuk memberi subsidi, kita bisa sedikit banyak tahu bahwa biaya inferensinya cukup rendah hingga mendekati biaya riil
      Lab terdepan tampaknya perlu menurunkan harga per token mereka setidaknya untuk model kelas murah dan menengah. Sebab model Tiongkok seperti Qwen, DeepSeek, Kimi, dan GLM sudah “cukup mendekati” untuk menjadi alternatif hemat biaya jika dipasangkan dengan lingkungan eksekusi yang tepat
      Namun, ada juga model yang membutuhkan lebih banyak kerja untuk menyelesaikan masalah yang sama, jadi mungkin belum perlu menutup kesenjangan itu sepenuhnya saat ini
      Meski begitu, harga tampaknya akan turun dengan satu cara atau lainnya, dan pada saat yang sama kemungkinan besar langganan model Tiongkok yang murah juga mengandung subsidi, sehingga seiring waktu mungkin akan menjadi kurang murah hati
    • Salah satu aspeknya adalah duration mismatch yang baru-baru ini dibicarakan Paul Kedrosky
      Harga per token turun seiring waktu karena tekanan kompetitif atau karena pelanggan terdorong memakai model lama yang lebih murah, sementara pusat data dibiayai dengan utang berdasarkan asumsi bahwa pendapatan akan naik seiring waktu
      Meminjam ungkapannya, “[perusahaan AI] membayar biaya tetap dengan komoditas yang nilainya terus turun”
      Di satu sisi pendapatan token turun, di sisi lain biaya pelatihan frontier model berikutnya naik, dan pada saat yang sama mereka harus membayar utang 10 tahun
      0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
    • Tidak perlu khawatir, mereka bisa melobi pelarangan model Tiongkok demi menjaga pendapatan token
      “Yang memperburuk masalah adalah laboratorium Tiongkok sering merilis model yang berpotensi dual-use sebagai open-weight. Ketika sebuah model menjadi open-weight, pengaman yang ada juga bisa dihapus, dan model tersebut dapat digunakan oleh aktor negara maupun non-negara dengan tujuan jahat, termasuk penyalahgunaan siber dan CBRN yang tadinya ingin dicegah oleh pengaman tersebut”
      https://www.anthropic.com/research/2028-ai-leadership
    • Justru kemungkinan besar harganya naik. NVidia mengatakan harga hardware GPU setidaknya tidak akan turun sampai 2030, dan ada kekurangan kapasitas produksi fab secara global
    • Sebagian besar perusahaan Amerika yang normal akan melarang penggunaan perusahaan AI Tiongkok berbasis cloud. Karena kode, data, informasi pribadi, dan sebagainya semuanya dikirim ke sana
  • Penasaran kapan perusahaan besar akan sadar bahwa bahkan model flash pun sudah cukup bagus jika syaratnya seperti ini

    1. tidak meminta LLM melakukan perubahan besar
    2. meninjau semua hasil dan mengarahkan ke jalur yang benar
      Model besar pun tetap buruk untuk perubahan besar, suka membuat arsitektur yang meragukan, dan untuk proyek serius bagaimanapun juga kodenya tetap harus direview
      Dengan model apa pun, kalau tidak cukup diperhatikan, codebase akan cepat berantakan
      Dalam situasi memberi instruksi lalu beriterasi, model flash 10 kali lebih murah dan jauh lebih cepat, jadi rasanya tidak ada alasan memakai model besar. Model besar bisa dipakai untuk audit keamanan dan bug, dan untuk perubahan di bawah 300 baris, jika diberi arahan bentuk kode yang diinginkan, model flash pun bekerja hampir sama
    • Cukup sederhana. Organisasi bersedia menanggung pengeluaran 1500 dolar per insinyur per bulan, dan angka ini tampaknya kira-kira sesuai dengan penggunaan “normal” bagi kebanyakan insinyur full-time
      Jika angka ini naik jauh lebih besar, saya rasa perusahaan akan mulai lebih serius meninjau model flash seperti yang Anda usulkan
    • Menggunakan model terbaru terbesar yang masih mampu dibayar adalah keputusan yang mudah
      Tapi itu justru membuat orang melewatkan bagian penting lainnya di sini, yaitu harness atau lingkungan eksekusi. Menjalankan pipeline otonom dengan orkestrator buatan sendiri untuk perencanaan/desain/kode/build/test, dan memakai agen di beberapa tahap
      Setiap tahap cocok dengan model yang berbeda, dan hasil antar tahap dievaluasi dengan LLM. Tidak semua pekerjaan butuh Opus 4.8
      Harness menyediakan landasan untuk menyesuaikan apa yang harus dimasukkan ke model dan apa yang harus dikeluarkan darinya, sekaligus menentukan model mana yang mengerjakan tugas apa
      Yang menghasilkan kualitas dalam batas anggaran token tertentu bukanlah modelnya, melainkan pipeline
    • Saya penasaran sejauh mana model harus memutuskan sendiri ke model mana sebuah kueri diteruskan
      Atau mungkin model besar bisa belajar membedakan pertanyaan mudah dan sulit lalu mengenakan biaya sesuai itu. Kalau kompleksitas bisa diukur, mungkin bahkan bisa membuat estimasi biaya
      Model kecil cukup untuk tugas coding kecil, tapi saya kurang paham mengapa bahkan model besar pun sering kali tidak bisa memecah pekerjaan menjadi bagian-bagian kecil
    • Sangat setuju. Model yang lebih besar juga punya kebiasaan terlalu mengomplekskan pekerjaan
    • “Tidak meminta LLM melakukan perubahan besar” dan “mereview semuanya serta memberi arahan” bukan hal yang dipedulikan manajemen
      Itu sudah dianggap sebagai masalah engineering, lalu didorong menjadi sesuatu yang harus diselesaikan oleh engineer sendiri
  • Saya masih tidak mengerti kenapa begitu banyak orang percaya AI coding cuma akan berakhir sebagai tren
    Bahkan belum 2 tahun sejak dimulai, perusahaan sudah membayar ribuan dolar per kursi, dan saya juga tahu ada tempat yang membayar 5 ribu dolar per bulan
    Sulit membayangkan ada alat lain yang diadopsi secepat ini dari nol

    • Karena perusahaan bertaruh bahwa lewat pengeluaran ini mereka bisa mengurangi biaya dengan memberhentikan orang
      Pull request AI LLM yang terlihat sekarang hanya menambah pekerjaan untuk orang lain, dan para apa yang disebut “builder” itu cuma terlihat bagus karena dashboard baru dan fitur yang bisa didemokan
      Tapi tidak bisa diajak berdiskusi soal alur kode, dan kita juga tidak bisa menanyakan proses berpikir kenapa sesuatu dibuat seperti itu
      Hasilnya bukan dibangun dari bawah dengan pengalaman banyak orang, melainkan muncul begitu saja dari ketiadaan, tanpa pemisahan dasar dan hampir tanpa abstraksi
      Tidak ada yang mau menyentuhnya. Pull request-nya terlalu besar, dan para “penulis” itu juga tidak ikut on-call bersama kami
      Mereka mengambil semua kejayaan, tapi tidak melakukan pekerjaan yang sebenarnya
      Mirip seperti mendesain rumah lalu mengirimkannya ke arsitek dan insinyur sambil berkata, “bikin ini jadi nyata”
    • Itu argumen yang kesimpulannya tidak mengikuti premisnya. Fakta bahwa “perusahaan sudah membayar ribuan dolar per kursi” tidak punya korelasi sama sekali dengan apakah sesuatu itu tren atau bukan
      Ada banyak penjelasan yang jauh lebih masuk akal untuk perilaku perusahaan selain “karena AI coding bukan tren”
    • Hasil vibe coding kadang luar biasa, tapi kadang merusak sesuatu, bahkan merusak lagi hal-hal yang sudah beberapa kali diperbaiki
      Pull request-nya terlalu besar dan tidak ada yang bisa meninjau kekacauan itu, dan kalau sampai di-deploy, bersiaplah untuk on-call
      Bisa jadi akan membaik, bisa juga tidak, tapi untuk sekarang kita belum tahu
    • Justru fakta-fakta ini terlihat seperti sinyal bahwa kenyataannya bisa berbeda dari yang tampak
      Ini terlalu besar dan terlalu cepat sampai terasa tidak stabil. Bisa saja level ini bertahan, bisa naik lagi, atau bisa turun ke tingkat penggunaan dan anggaran yang lebih normal
    • Ada spektrum yang luas antara “AI coding adalah tren” dan “beri semua karyawan token tak terbatas tanpa peduli apakah secara finansial ada dampak bersih positif”
  • Saya pakai langganan 100 dolar per bulan, tapi biaya API selama 30 hari terakhir sekitar 1700 dolar per bulan
    Itu sangat bergantung pada cara pakainya. Kalau membuat desain detail lewat prompt, memecahnya menjadi daftar tugas, lalu memasukkannya ke beberapa agen, membakar ribuan dolar itu sangat mudah
    Kalau dipakai lebih hati-hati, hanya menjalankan beberapa agen sekaligus secara interaktif, dan digunakan untuk meninjau pull request/menyelesaikan issue/bersih-bersih otomatis/optimasi performa, mungkin sekitar 1500 dolar
    Kalau cuma melempar pertanyaan satu kali seperti Stack Overflow yang lebih baik, biayanya jauh di bawah 100 dolar
    Akhir-akhir ini saya ketagihan /goal, dan kalau menemukan tujuan yang bisa diverifikasi lalu membiarkannya berjalan semalaman, melihat sejauh mana progresnya keesokan pagi terasa seperti pagi Natal

  • 1500 dolar per bulan berarti 18 ribu dolar per tahun per kursi
    Mungkin Microsoft dan Nvidia memang melihat sesuatu
    Mesin 128GB yang bisa menjalankan LLM lokal terasa murah bahkan di harga 5 ribu sampai 8 ribu dolar. Token per detiknya memang belum cukup tinggi, tapi mungkin masih oke
    Bottleneck sebenarnya bukan kodenya, melainkan apa sebenarnya yang Uber bangun dengan semua uang itu dan dampak positif yang berarti apa terhadap pendapatan

    • Saya kurang yakin bahwa token per detik bukan bottleneck-nya. Kebanyakan orang sepertinya tetap akan memakai agen AI secara interaktif, bukan membiarkannya jalan sendiri semalaman
      Secara pribadi, di bawah 50 tok/s itu benar-benar tidak bisa dipakai
      Bagaimanapun ini juga seperti membandingkan apel dan jeruk. Inferensi model berbobot terbuka cukup murah, dan Claude serta OpenAI mungkin hanya bisa mengambil margin yang sangat tinggi dibanding banyak penyedia di DeepSeek atau OpenRouter. Model terbuka itu komoditas
    • Jauh lebih baik menjalankan model on-premise sendiri
      Laptop itu aset yang terdepresiasi, tidak punya skala ekonomi, spesifikasinya tetap, dan akhirnya menciptakan armada perangkat yang terfragmentasi yang harus terus dijaga agar modelnya tetap mutakhir
      Kalau memikirkan konsumsi daya dan masalah pendinginan juga, saya benar-benar tidak mengerti kenapa perusahaan akan memilih arah itu
    • Pada akhirnya perusahaan sepertinya akan membeli server AI lokal
      Hardware lokal jadi mahal ketika menjalankan tumpukan software kompleks yang bisa rusak dengan 10 ribu cara
      Server AI lokal masa depan mungkin cuma akan berkomunikasi lewat semacam protokol untuk AI dan diletakkan di sudut ruangan, dan tidak ada yang akan peduli
      Meski begitu, mungkin tetap butuh akses ke berbagai sistem, jadi saya tidak tahu, tapi pada akhirnya seseorang sepertinya akan menawarkan “AI dalam kotak” dengan model terbuka terbaru di dalamnya
    • Saya setuju dengan klaim dasarnya, tapi menjalankan AI lokal mutakhir senilai 1500 dolar per bulan itu sudah bukan hal sepele, dan penting juga bahwa itu dihitung per kursi
      Itu setara dengan menghasilkan minimal 20 tok/s 24x7 sepanjang tahun, dan kemungkinan besar kebutuhan nyatanya jauh lebih besar dari itu
      Karena model berbobot terbuka jauh lebih murah daripada model tertutup, bahkan ketika ditawarkan melalui penyedia Barat yang bereputasi, untuk mencapai tingkat pengeluaran yang sama mungkin perlu lebih dari 100 tok/s, dan itu sudah masuk wilayah hardware data center
      Di platform prosumer mungkin kita bisa mencapai angka pertama tadi, tapi hanya pada beban kerja yang sangat khusus. Prospeknya lebih buruk untuk beban kerja agentic yang sering menghabiskan banyak waktu pada prefill. Itu jadi kendala besar untuk AI on-premise
    • Menurut saya yang utama bukan harus apa yang Uber bangun, melainkan peningkatan produktivitas
      Jika para engineer memakai alat AI dengan benar, produktivitas mereka bisa naik besar, dan LLM bisa dipakai seperti engineer junior atau associate
      1500 dolar per bulan jauh lebih murah dibanding tingkat produktivitas seperti itu, dan mempekerjakan engineer manusia pasti akan jauh lebih mahal
  • Saya makin khawatir soal lock-in dan biaya pindah
    Setelah memakai Claude sekitar setahun, saya sudah menumpuk cukup banyak “pengetahuan” di dalamnya
    Kalau nanti price/performance Claude jadi tidak kompetitif, saya rasa itu akan jadi masalah
    Saya mulai memikirkan solusi terdistribusi yang memisahkan penyimpanan dari inferensi, tapi untuk saat ini Claude masih jadi pilihan. Penasaran apakah ada orang lain yang punya kekhawatiran serupa

    • “Pengetahuan” itu bukannya cuma file teks? Selama ini saya cukup mudah pindah antar layanan hanya dengan menyalin file teks
    • Solusi favorit saya adalah memakai agen coding Cline. Itu terbuka, dan mudah berpindah di antara berbagai penyedia dan model
    • Saya tidak paham “pengetahuan” di dalam itu maksudnya apa
      Pengetahuan itu disimpan di mana?
      Pengetahuan saya biasanya disimpan di dokumen rencana di luar agen
      Dan tiap jendela agen bagaimanapun juga saya arsipkan secara berkala
  • Kalau karyawan tidak memakai anggaran AI/LLM mereka, apakah gajinya bisa dinaikkan?

    • Mungkin malah akan dipecat karena performanya kurang
  • Saya tidak tahu kenapa self-hosting untuk menjalankan model open-weight di perusahaan besar, atau kalau tidak harus benar-benar on-premise maka menyewa server GPU atau meng-hosting lewat tempat seperti together AI, tidak lebih umum
    Saya sudah memakai model open-weight dan model premium seperti Opus dan Gemini Pro, dan meskipun yang belakangan memang sedikit lebih baik, itu sama sekali tidak cukup untuk membenarkan selisih harganya
    Untuk penggunaan yang saya coba, perbedaannya sebagian besar tidak penting, dan saya kira banyak pengguna lain juga punya penggunaan yang mirip

    • Kami juga baru saja membahas hal serupa di $WORK; sebagai perusahaan keuangan tradisional yang terdaftar di NYSE, dan jika dilihat dari standar perusahaan pada umumnya dalam hal keahlian TI, menurut saya alur pikirnya seperti ini
      Memberi seorang developer/hacker hebat sebuah server GPU kuat lalu membiarkannya menjalankan model apa pun sesukanya sama sekali berbeda dengan memelihara platform seperti itu untuk seluruh perusahaan
      Anda perlu menyiapkan orang yang paham dan bisa memelihara model seperti itu, backend, ketersediaan, dan sebagainya, dan orang-orang itu kemungkinan besar bergaji jauh lebih tinggi daripada developer software biasa
      Karena kerepotan tambahan ini, membayar lab eksternal papan atas dan memberi semua orang batas pengeluaran yang masuk akal jadi pilihan yang lebih mudah
    • Bahkan jika model premium hanya 10% lebih baik, itu tetap bisa membenarkan harganya dibanding model open-weight sekitar kelas 0,5~1T yang di-self-host
      Tingkat pemanfaatan rak raksasa seperti ini tidak akan 24 jam sehari, 365 hari setahun, dan biasanya organisasinya juga tidak cukup berpusat pada GPU sampai bisa melatih model dengan komputasi yang tersisa
      Jika harganya lebih dari 100 ribu~200 ribu dolar dan umur pakainya sekitar 2 tahun, itu sulit dibenarkan secara finansial
      Bahkan self-hosting pun bisa dengan mudah mencapai sekitar 1000 dolar per bulan jika diamortisasi ke beberapa developer, dan pada jam sibuk akan muncul pembatasan kecepatan yang ketat
      Apakah selisih 500 dolar dari 1500 dolar per bulan dikurangi 1000 dolar membenarkan penurunan 10% dalam “produktivitas AI”? Menurut saya, dalam kebanyakan kasus tidak
      Dalam jangka pendek, kecuali ada alasan yang sangat kuat mengapa model bantu coding harus di-self-host, saya akan bilang 2~3 penyedia coding assistant teratas adalah pilihan yang lebih baik
      Tidak ada orang yang di-PHK karena membeli lisensi Claude Code
    • Saya tidak tahu kenapa orang mengira ini seharusnya lebih umum
      Hanya untuk menggabungkan GPU dan menyediakannya ke banyak pengguna, sambil tetap mematuhi kontrol keamanan dan menghubungkannya ke dokumen serta data lake, itu saja sudah bukan hal sepele
      Pada akhirnya Anda akan membayar tim untuk mengelola semua itu
    • Mencoba sekali sendirian di mesin pribadi dan menyediakan model untuk 3000 karyawan di tengah tuntutan hardware dan software yang terus berubah adalah perhitungan yang sama sekali berbeda
      Anda memerlukan hardware khusus di data center dan tenaga ahli untuk mengoperasikannya
      Perusahaan harus mencari cara mengelola pengadaan, aset, biaya, dan seribu hal lainnya di luar bisnis utamanya
      Siapa yang sudah menyelesaikan semua itu? AWS/Azure/OpenAI dan sebagainya
    • Alasannya sama seperti perusahaan tidak membangun sendiri data center untuk kebutuhan hosting dan storage umum, lalu memilih AWS, Azure, dan sebagainya
      Merawat hardware dan mempekerjakan ahli operasi layanan itu mahal
      Untuk sesuatu yang umum seperti model LLM, kecuali perusahaan sangat sensitif terhadap pengiriman byte ke AWS, sama sekali tidak ada alasan menyediakan model dengan hardware sendiri
  • Dibanding angka batas 1500 dolar per bulan itu sendiri, yang lebih menarik adalah fakta bahwa mereka sampai menetapkan suatu batas
    Sebagian besar tim engineering yang saya ajak bicara tidak tahu berapa pengeluaran AI per developer, karena semuanya tenggelam di tagihan cloud gabungan
    Hard cap memaksa dua percakapan yang berguna. Workflow mana yang memang layak memakai panggilan API dan mana yang cukup dengan inferensi lokal, serta apakah outputnya benar-benar dibandingkan dengan metrik produktivitas nyata
    Tanpa loop umpan balik seperti itu, ini hanya jadi perlombaan melihat siapa yang paling cepat membakar token

  • Alur antara “batas 1500 dolar per bulan per alat tampak seperti respons kebijakan yang masuk akal terhadap pemborosan” dan “pemakaian token saya sekitar 1000 dolar per bulan masing-masing di Anthropic dan OpenAI, tetapi saat ini saya hanya membayar 100 dolar per penyedia berkat paket subsidi yang murah hati untuk pelanggan individu” terasa seperti bisnis penjualan berjenjang
    Rasanya seperti struktur di mana para ‘diamond’ menghasilkan uang dengan mempromosikan MLM di seminar, lalu memberi tahu para calon di lapisan bawah bahwa “membeli langganan AI sekarang adalah satu-satunya kesempatan seumur hidup untuk menjadi pemenang dalam hidup”
    Saya jadi bertanya-tanya apakah ada semacam mekanisme pencipta FOMO dengan MLM vs LLM

    • Simon Willison sudah seperti itu terus sejak LLM muncul. Terlihat terlalu gamblang seperti orang yang dibayar untuk promosi