- COO Uber menilai semakin sulit membenarkan apakah pengeluaran AI benar-benar menghasilkan dampak yang sepadan dengan biaya yang dikeluarkan
- Diskusi internal membesar setelah CTO Uber mengungkap bahwa anggaran Claude Code untuk 2026 sudah habis terpakai
- Keterkaitan bahwa penggunaan token yang lebih banyak akan secara proporsional menghasilkan lebih banyak fitur konsumen yang berguna masih belum terbukti
- CEO Uber mengatakan perusahaan memperlambat laju perekrutan untuk mengimbangi investasi AI
- Berbeda dari arus tokenmaxxing di Big Tech, Duolingo membatalkan keputusan untuk memasukkan penggunaan AI ke evaluasi kinerja setelah mendapat reaksi dari karyawan
Masalah pembenaran biaya AI di internal Uber
- Chief Operating Officer Uber, Andrew Macdonald, menilai semakin sulit membenarkan biaya AI di dalam perusahaan
- Dalam wawancara Rapid Response yang dipublikasikan pada hari Sabtu, ia mengatakan AI belum memberikan hasil yang sepadan dengan uang yang dikeluarkan perusahaan
- Diskusi internal membesar setelah CTO Uber, Praveen Neppalli Naga, mengatakan dalam wawancara dengan The Information pada April bahwa Uber sudah menghabiskan seluruh anggaran Claude Code untuk 2026
- Pernyataan itu memicu situasi yang oleh Macdonald digambarkan sebagai “momen kepala rasanya mau meledak”, dan di dalam perusahaan muncul pembahasan soal trade-off antara konsumsi token AI dan ukuran tenaga kerja
Tidak adanya hubungan jelas antara penggunaan token dan hasil produk
- Setelah berbicara dengan para pemimpin senior engineering di Uber, Macdonald menyimpulkan bahwa penggunaan token yang lebih besar tidak otomatis menghasilkan peningkatan proporsional dalam fitur konsumen yang berguna
- Dengan mengatakan “hubungan itu belum ada”, ia menilai mungkin saja lebih banyak fitur memang dirilis, tetapi sulit menghubungkan metrik tertentu secara langsung dengan kesimpulan bahwa “sekarang kami benar-benar membuat 25% lebih banyak fitur konsumen yang berguna”
- Semakin sulit pengeluaran AI dihubungkan langsung dengan hasil, semakin sulit pula membenarkan biaya trade-off tersebut
- CEO Dara Khosrowshahi mengatakan dalam laporan kinerja awal bulan ini bahwa Uber memperlambat perekrutan untuk mengimbangi investasi AI
Bagi pengguna terasa gratis, tetapi perusahaan yang menanggung biaya
- Macdonald menilai AI bisa tampak gratis jika dilihat dari sudut pandang pengguna yang tidak membayar biaya dan hanya memikirkan “use case yang menarik”
- Namun pada akhirnya, perusahaanlah yang membayar biayanya
- Perluasan penggunaan AI tidak lagi diperlakukan sekadar sebagai eksperimen produktivitas, melainkan sebagai struktur biaya yang memengaruhi anggaran dan pengelolaan tenaga kerja
Arus yang berbeda dari tokenmaxxing di Big Tech
- Big Tech sangat agresif mendorong tokenmaxxing, yaitu menggunakan AI sebanyak mungkin, dan sebagian perusahaan memasukkan tingkat penggunaan AI karyawan ke dalam penilaian
- Meta, Google, JPMorgan disebut sebagai perusahaan yang mengaitkan penggunaan AI dengan evaluasi kinerja, target, kenaikan gaji, dan promosi
- Sebaliknya, sebagian perusahaan mulai mundur dari pendekatan yang memaksakan penggunaan AI itu sendiri
- Duolingo membatalkan keputusan untuk memasukkan penggunaan AI ke evaluasi kinerja setelah karyawan bertanya, “apakah kami harus menggunakan AI demi menggunakan AI?”
- CEO Duolingo, Luis von Ahn, mengatakan dalam wawancara podcast pada April bahwa alih-alih meminta pertanggungjawaban atas hasil nyata, pendekatan itu dalam beberapa kasus terasa seperti memaksakan sesuatu yang sebenarnya tidak cocok
1 komentar
Komentar Hacker News
Pada 2007~2009, ketika Google sedang banyak memperbesar data center, terutama di luar jam kerja ada banyak kapasitas menganggur
Siapa pun engineer bisa menjalankan pekerjaan sebanyak yang mereka mau dengan prioritas 0, dan jika pekerjaan yang lebih penting membutuhkan sumber daya, pekerjaan ini akan menjadi yang pertama dimatikan
Banyak eksperimen MapReduce dijalankan semalaman, dan untuk sementara beberapa layanan internal juga dijalankan dengan prioritas 0 sehingga praktis beroperasi seperti “gratis”
Seiring penggunaan meningkat, layanan seperti itu makin tidak stabil, dan pada akhirnya harus membenarkan penggunaan sumber daya atau mengecilkan skalanya, tetapi menurut saya itu perkembangan yang baik
Penggunaan token AI tampaknya cocok dengan model serupa. Perusahaan teknologi besar bisa memiliki data center LLM sendiri, menangani kebutuhan internal, lalu membuka kapasitas menganggur di luar jam kerja untuk eksperimen karyawan
Dalam pekerjaan sehari-hari, yang perlu didorong adalah efisiensi token, bukan jumlah token itu sendiri. Menghabiskan banyak token untuk otomatisasi yang menghemat beberapa jam kerja manusia tiap minggu adalah penggunaan yang baik, sedangkan menghabiskan banyak token untuk men-debug bug frontend sederhana yang sebenarnya bisa diperbaiki manual namun tetap memakan 4 jam adalah pemborosan
https://developers.openai.com/api/docs/guides/batch
Untuk pendekatan seperti pengembangan berbasis spesifikasi, di mana manusia bukan terus berada di dalam loop melainkan memeriksa dari atas loop, pendekatan ini jauh lebih alami, tetapi setidaknya dari pengalaman saya dengan frontend Google, saya belum melihat tempat yang mendukungnya dengan baik
Yang terjadi sekarang sangat jelas bagi banyak orang. Ini seperti mengatakan kepada pecandu baru yang sengaja dibuat agar kecanduan, “cobalah konsumsi dengan sedikit lebih hati-hati”, jadi kemungkinan besar tidak akan terlalu berhasil
Saya tidak suka menggunakan AI, dan juga tidak merasa itu banyak membantu
Tapi perusahaan memaksa penggunaannya dan melacak metriknya, jadi saya melemparkan pekerjaan receh yang tidak berarti setiap hari agar terlihat seperti menggunakannya
Meskipun akhirnya malah membuat lebih banyak masalah daripada memperbaikinya, di metrik saya tetap menjadi orang yang menggunakan AI
Kalau ada perusahaan yang mengumumkan bahwa jumlah konsumsi token dipakai sebagai sinyal kinerja karyawan, menurut saya itu hampir pasti tanda bahaya bahwa perusahaan itu sebaiknya dihindari
Perusahaan dengan kepemimpinan engineering yang baik seharusnya tidak memperlakukan ini sebagai ide yang layak
Tapi kalau menghabiskan token AI senilai 500 dolar secara tidak produktif, di perusahaan justru diolok-olok sebagai pengadopsi AI papan atas
Beberapa perusahaan bahkan mengatakan kepada developer, “sekarang kami berharap kalian tidak lagi menulis satu baris kode pun sendiri”
Dari sudut pandang eksekutif, mungkin logikanya seperti ini: jika 20% karyawan teratas bisa membuat 80% kode dengan LLM dan perusahaan tetap berjalan, maka 80% developer terbawah bisa dikurangi untuk menghemat biaya
Memakai penggunaan token dalam evaluasi kinerja karyawan hanyalah salah satunya
Tidak banyak hal yang benar-benar baru di bawah reaktor fusi raksasa di langit
Saya pernah membaca sesuatu seperti tokenmaxxing di industri telegraf dalam “The Information” karya James Gleick
Karena telegram dikenai biaya per karakter, pasar buku kode untuk mengurangi jumlah karakter yang dikirim sangat besar. Kompresi berarti uang, dan perusahaan telegraf membencinya tetapi terpaksa menerimanya
Industri kode telegraf dimulai sejak awal komersialisasi telegraf dan berlanjut hingga 1920-an
Tentu ada biayanya juga. Kode sangat mengurangi redundansi, dan kesalahan yang sangat kecil bisa menimbulkan kesalahpahaman besar
Seperti dijelaskan Gleick, ini justru kebalikan dari cara tabuhan genderang di Afrika menambahkan redundansi untuk memperkuat hubungan antara ritme dan bahasa yang ditirukan genderang
Artinya yang menang adalah orang yang membakar token atau biaya paling besar, bukan programmer yang mengirim fitur
Yang Anda jelaskan lebih dekat ke meminimalkan token, bukan memaksimalkannya
Saya selalu penasaran tentang tumpukan perangkat lunak bahkan sebelum era LLM, dan sekarang ini terasa makin relevan
Kapan perusahaan seperti Uber akan benar-benar “selesai”? Mereka sudah membuat perangkat lunak selama 16 tahun
Mereka adalah perusahaan yang mencocokkan pengemudi dan penumpang, dan membuat lebih banyak perangkat lunak tidak akan secara besar meningkatkan kemungkinan saya memilih Uber dibanding bus atau kereta
Apakah perangkat lunak akan selesai 20 tahun lagi? Atau 80 tahun lagi?
Belum lagi lingkungan regulasi yang terus berubah dan produk baru. Lihat saja kapan Uber Eats muncul
Dalam 16 tahun itu, Covid-19 terjadi, kendaraan otonom yang praktis mulai muncul, dan kemitraan dengan Waymo juga lahir
Aplikasi untuk publik yang terhubung lewat jaringan tidak akan pernah bisa “selesai” kecuali Anda punya kemampuan meramal yang sempurna
Tumpukan teknologi internal itu seperti organisme hidup, dan butuh sangat banyak kerja hanya untuk menjaga layanan yang dari luar tampak tidak berubah. Skalabilitas juga urusan besar, dan skalabilitas serta pemeliharaan terus saling memperbesar
Setiap negara punya hukumnya sendiri tentang apa yang boleh dan tidak boleh dilakukan Uber, dan itu harus diformalkan dalam kode
Misalnya, di beberapa tempat, lewat aplikasi Uber Anda sebenarnya memanggil taksi, dan tarifnya mungkin dihitung per mil, bukan harga tetap di muka
Lalu ditambah lagi hukum per kota. Kalau Anda naik Uber dari kota A ke kota B yang aturannya berbeda, apa yang harus dilakukan? Pengacara mungkin tahu jawabannya, tetapi aplikasi harus mematuhinya
Selain itu, hukum terus berubah
Optimisasi juga tidak ada habisnya. Kecepatan, biaya, rute, selalu ada yang bisa ditingkatkan
Menurut saya, sebagai konsumen, bagian yang kita lihat hanyalah potongan sangat kecil dari kompleksitas yang harus dibangun dan dioperasikan layanan seperti itu
Hampir selalu ada bug yang harus diperbaiki. Bug-nya benar-benar sangat banyak
Ini juga masalah perusahaan yang menerima investasi sangat besar. Nilai Uber didasarkan bukan hanya pada apa yang dilakukannya sekarang, tetapi pada harapan bahwa mereka akan membuat konsep memiliki mobil pribadi atau memakai transportasi umum menjadi usang
Memang terdengar berlebihan, tetapi tetap tidak seberlebihan yang dibayangkan
Tokenmaxxing itu tidak masuk akal. Mirip seperti sengaja menulis job SQL/Spark yang tidak efisien untuk memakai komputasi, memori, dan I/O sebanyak mungkin
Seolah-olah sengaja memasukkan banyak sekali hasil kali Kartesius dan dataset yang sangat timpang
Hal seperti ini selalu terjadi ketika metrik dijadikan tujuan. Perusahaan seharusnya membangun lingkungan yang mendorong penggunaan AI seefisien mungkin, dan pertama-tama bertanya, “apakah pekerjaan ini benar-benar butuh agen?”
Kalau memang perlu, lalu tentukan agen seperti apa, model apa, dan tingkat penalaran seperti apa yang dibutuhkan
Penghematan token, peningkatan cache hit rate, dan penataan informasi agar bisa dipakai dengan konteks yang lebih sedikit juga harus didorong. Knowledge graph cukup bagus untuk ini
Mirip membakar SPBU supaya bisa menang balapan
Ini cuma cara untuk mendorong atau memaksa semua karyawan bereksperimen dengan teknologi baru
Kalau semua orang dianggap sudah memanfaatkan AI, hal seperti tokenmaxxing tentu akan berakhir
Saya memang melihat banyak kasus penggunaan yang nilai tambahnya diragukan, tetapi saya juga melihat tim memecahkan masalah lama dengan alur kerja berbentuk agen yang akan sulit dibenarkan di hadapan komite peninjau biaya
Saya paham bahwa pekerjaan seperti penghematan token, peningkatan cache hit rate, dan penataan informasi untuk penggunaan konteks yang lebih sedikit biasanya tetap dikerjakan terpisah oleh tim khusus di balik layar di sebagian besar perusahaan tokenmaxxing besar
Saya paham kenapa perusahaan membakar uang untuk pengembangan dengan bantuan AI. Tapi bagaimana dengan return on investment secara keseluruhan? Apakah nilainya benar-benar sepadan dengan peningkatan efisiensi yang diklaim?
Ini satu-satunya hal yang sebenarnya menarik dari demam AI, dan saya tidak tahu kenapa tidak ada yang membicarakannya
Dengan Claude, Anda bisa membuat 5 fitur yang buruk atau tidak berguna dalam sehari, atau 1 fitur yang berguna dalam dua hari. Mana yang lebih baik dampaknya terhadap return on investment?
Dari contoh saja kelihatannya seperti pertanyaan yang mudah dijawab, tetapi di dunia nyata jauh lebih rumit dan jauh lebih sulit diukur
Karena itu, banyak perusahaan tampaknya memilih jalan mudah: berhenti mengukur dan mengikuti hype
Saya yakin ketika AI dipakai dengan benar, termasuk code review, batas peningkatan maksimum yang berkelanjutan adalah sekitar 20% untuk engineer senior dengan tingkat kemahiran yang sesuai
Anggaran token engineer mana pun tidak seharusnya melampaui itu
Saya tidak percaya engineer yang melakukan tokenmaxxing benar-benar produktif, dan saya sama sekali belum pernah melihat buktinya. Bahkan bisa jadi justru sebaliknya
Dengan alur kerja yang benar dan pengetahuan codebase yang memadai, saya sendiri merasakan bahwa tingkat itu memang mungkin dicapai dengan upaya yang berkelanjutan
AI untuk produktivitas engineering tampaknya banyak disalahpahami sebagai tombol ajaib yang menghasilkan hasil yang sama dengan lebih cepat dan lebih murah
Dengan logika seperti itu, wajar saja kalau orang ingin memaksa karyawan melakukan tokenmaxxing. Kalau bisa mendapat lebih banyak hasil lebih cepat dan lebih murah, kenapa tidak?
Kalau dilihat lebih cermat, gambarannya begini. AI memang membantu mencapai roadmap agak lebih cepat, tetapi ia juga menimbulkan utang teknis yang mirip seperti jika Anda menyewa developer sementara untuk membuat fitur
Belum tentu ada orang di dalam tim yang benar-benar memahami kode baru itu
Demikian juga, peningkatan keterampilan anggota tim junior juga jadi lebih sedikit. Lebih sulit mendapatkan arbitrase antara keterampilan dan upah seperti dulu
Produk juga bisa menjadi lebih kompleks. Ada alasan kenapa fitur P2 tetap P2, dan AI bisa membuat fitur dengan manfaat marjinal rendah ikut dimasukkan sehingga produk menjadi lebih rumit
Saya kaget ada orang yang pernah menganggap tokenmaxxing sebagai ide bagus
Para maksimalis AI sering membandingkan teknologi ini dengan listrik. Bayangkan pada masa awal elektrifikasi, para CEO memberi imbalan kepada karyawan atas peningkatan konsumsi listrik alih-alih mencari cara memakai listrik yang benar-benar meningkatkan hasil bisnis
Pada masa itu, orang yang menunjukkan tanda-tanda gangguan jiwa sering dimasukkan ke institusi, dan mungkin itu memang akan jadi akhirnya