1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • COO Uber menilai semakin sulit membenarkan apakah pengeluaran AI benar-benar menghasilkan dampak yang sepadan dengan biaya yang dikeluarkan
  • Diskusi internal membesar setelah CTO Uber mengungkap bahwa anggaran Claude Code untuk 2026 sudah habis terpakai
  • Keterkaitan bahwa penggunaan token yang lebih banyak akan secara proporsional menghasilkan lebih banyak fitur konsumen yang berguna masih belum terbukti
  • CEO Uber mengatakan perusahaan memperlambat laju perekrutan untuk mengimbangi investasi AI
  • Berbeda dari arus tokenmaxxing di Big Tech, Duolingo membatalkan keputusan untuk memasukkan penggunaan AI ke evaluasi kinerja setelah mendapat reaksi dari karyawan

Masalah pembenaran biaya AI di internal Uber

  • Chief Operating Officer Uber, Andrew Macdonald, menilai semakin sulit membenarkan biaya AI di dalam perusahaan
  • Dalam wawancara Rapid Response yang dipublikasikan pada hari Sabtu, ia mengatakan AI belum memberikan hasil yang sepadan dengan uang yang dikeluarkan perusahaan
  • Diskusi internal membesar setelah CTO Uber, Praveen Neppalli Naga, mengatakan dalam wawancara dengan The Information pada April bahwa Uber sudah menghabiskan seluruh anggaran Claude Code untuk 2026
  • Pernyataan itu memicu situasi yang oleh Macdonald digambarkan sebagai “momen kepala rasanya mau meledak”, dan di dalam perusahaan muncul pembahasan soal trade-off antara konsumsi token AI dan ukuran tenaga kerja

Tidak adanya hubungan jelas antara penggunaan token dan hasil produk

  • Setelah berbicara dengan para pemimpin senior engineering di Uber, Macdonald menyimpulkan bahwa penggunaan token yang lebih besar tidak otomatis menghasilkan peningkatan proporsional dalam fitur konsumen yang berguna
  • Dengan mengatakan “hubungan itu belum ada”, ia menilai mungkin saja lebih banyak fitur memang dirilis, tetapi sulit menghubungkan metrik tertentu secara langsung dengan kesimpulan bahwa “sekarang kami benar-benar membuat 25% lebih banyak fitur konsumen yang berguna”
  • Semakin sulit pengeluaran AI dihubungkan langsung dengan hasil, semakin sulit pula membenarkan biaya trade-off tersebut
  • CEO Dara Khosrowshahi mengatakan dalam laporan kinerja awal bulan ini bahwa Uber memperlambat perekrutan untuk mengimbangi investasi AI

Bagi pengguna terasa gratis, tetapi perusahaan yang menanggung biaya

  • Macdonald menilai AI bisa tampak gratis jika dilihat dari sudut pandang pengguna yang tidak membayar biaya dan hanya memikirkan “use case yang menarik”
  • Namun pada akhirnya, perusahaanlah yang membayar biayanya
  • Perluasan penggunaan AI tidak lagi diperlakukan sekadar sebagai eksperimen produktivitas, melainkan sebagai struktur biaya yang memengaruhi anggaran dan pengelolaan tenaga kerja

Arus yang berbeda dari tokenmaxxing di Big Tech

  • Big Tech sangat agresif mendorong tokenmaxxing, yaitu menggunakan AI sebanyak mungkin, dan sebagian perusahaan memasukkan tingkat penggunaan AI karyawan ke dalam penilaian
  • Meta, Google, JPMorgan disebut sebagai perusahaan yang mengaitkan penggunaan AI dengan evaluasi kinerja, target, kenaikan gaji, dan promosi
  • Sebaliknya, sebagian perusahaan mulai mundur dari pendekatan yang memaksakan penggunaan AI itu sendiri
  • Duolingo membatalkan keputusan untuk memasukkan penggunaan AI ke evaluasi kinerja setelah karyawan bertanya, “apakah kami harus menggunakan AI demi menggunakan AI?”
  • CEO Duolingo, Luis von Ahn, mengatakan dalam wawancara podcast pada April bahwa alih-alih meminta pertanggungjawaban atas hasil nyata, pendekatan itu dalam beberapa kasus terasa seperti memaksakan sesuatu yang sebenarnya tidak cocok

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Pada 2007~2009, ketika Google sedang banyak memperbesar data center, terutama di luar jam kerja ada banyak kapasitas menganggur
    Siapa pun engineer bisa menjalankan pekerjaan sebanyak yang mereka mau dengan prioritas 0, dan jika pekerjaan yang lebih penting membutuhkan sumber daya, pekerjaan ini akan menjadi yang pertama dimatikan
    Banyak eksperimen MapReduce dijalankan semalaman, dan untuk sementara beberapa layanan internal juga dijalankan dengan prioritas 0 sehingga praktis beroperasi seperti “gratis”
    Seiring penggunaan meningkat, layanan seperti itu makin tidak stabil, dan pada akhirnya harus membenarkan penggunaan sumber daya atau mengecilkan skalanya, tetapi menurut saya itu perkembangan yang baik
    Penggunaan token AI tampaknya cocok dengan model serupa. Perusahaan teknologi besar bisa memiliki data center LLM sendiri, menangani kebutuhan internal, lalu membuka kapasitas menganggur di luar jam kerja untuk eksperimen karyawan
    Dalam pekerjaan sehari-hari, yang perlu didorong adalah efisiensi token, bukan jumlah token itu sendiri. Menghabiskan banyak token untuk otomatisasi yang menghemat beberapa jam kerja manusia tiap minggu adalah penggunaan yang baik, sedangkan menghabiskan banyak token untuk men-debug bug frontend sederhana yang sebenarnya bisa diperbaiki manual namun tetap memakan 4 jam adalah pemborosan

    • Bukankah ini mirip dengan batch processing milik OpenAI? Permintaan diproses dalam 24 jam dan biayanya setengah
      https://developers.openai.com/api/docs/guides/batch
    • Rasanya pengguna LLM tidak akan bertindak selogis itu. Cukup banyak pengguna tampaknya bersikeras bahwa setiap tugas sepele harus dilempar ke Opus
    • Kebanyakan frontend AI dirancang untuk pekerjaan interaktif, sehingga sulit mendefinisikan pekerjaan prioritas 0 yang cukup diproses kapan saja
      Untuk pendekatan seperti pengembangan berbasis spesifikasi, di mana manusia bukan terus berada di dalam loop melainkan memeriksa dari atas loop, pendekatan ini jauh lebih alami, tetapi setidaknya dari pengalaman saya dengan frontend Google, saya belum melihat tempat yang mendukungnya dengan baik
    • Menyuruh orang agar tidak menghabiskan banyak token lalu tetap butuh 4 jam untuk bug frontend mudah sepertinya tidak akan gampang
      Yang terjadi sekarang sangat jelas bagi banyak orang. Ini seperti mengatakan kepada pecandu baru yang sengaja dibuat agar kecanduan, “cobalah konsumsi dengan sedikit lebih hati-hati”, jadi kemungkinan besar tidak akan terlalu berhasil
    • Pada akhirnya, bukankah lebih masuk akal kalau semua orang menerima model China yang 10 kali lebih murah
  • Saya tidak suka menggunakan AI, dan juga tidak merasa itu banyak membantu
    Tapi perusahaan memaksa penggunaannya dan melacak metriknya, jadi saya melemparkan pekerjaan receh yang tidak berarti setiap hari agar terlihat seperti menggunakannya
    Meskipun akhirnya malah membuat lebih banyak masalah daripada memperbaikinya, di metrik saya tetap menjadi orang yang menggunakan AI

  • Kalau ada perusahaan yang mengumumkan bahwa jumlah konsumsi token dipakai sebagai sinyal kinerja karyawan, menurut saya itu hampir pasti tanda bahaya bahwa perusahaan itu sebaiknya dihindari
    Perusahaan dengan kepemimpinan engineering yang baik seharusnya tidak memperlakukan ini sebagai ide yang layak

    • Kalau batas uang makan saat perjalanan dinas melewati 100 dolar, Anda harus menghadapi percakapan yang canggung dengan manajer atau tim keuangan
      Tapi kalau menghabiskan token AI senilai 500 dolar secara tidak produktif, di perusahaan justru diolok-olok sebagai pengadopsi AI papan atas
    • Mungkin mengejutkan, tetapi saya mengenal beberapa developer di perusahaan teknologi besar yang dikenal semua orang meskipun bukan FAANG, dan semuanya punya semacam papan peringkat token
      Beberapa perusahaan bahkan mengatakan kepada developer, “sekarang kami berharap kalian tidak lagi menulis satu baris kode pun sendiri”
      Dari sudut pandang eksekutif, mungkin logikanya seperti ini: jika 20% karyawan teratas bisa membuat 80% kode dengan LLM dan perusahaan tetap berjalan, maka 80% developer terbawah bisa dikurangi untuk menghemat biaya
    • Bahkan perusahaan yang dulu punya kepemimpinan rasional mulai terburu-buru dan membuat keputusan meragukan sejak kemunculan AI LLM
      Memakai penggunaan token dalam evaluasi kinerja karyawan hanyalah salah satunya
    • Token adalah jumlah baris kode per engineer versi baru. Mudah dibuat grafiknya dan mudah juga “dikelola”
    • Meta melakukan ini. Coba tebak salah satu kriteria PHK mereka yang terbaru
  • Tidak banyak hal yang benar-benar baru di bawah reaktor fusi raksasa di langit
    Saya pernah membaca sesuatu seperti tokenmaxxing di industri telegraf dalam “The Information” karya James Gleick
    Karena telegram dikenai biaya per karakter, pasar buku kode untuk mengurangi jumlah karakter yang dikirim sangat besar. Kompresi berarti uang, dan perusahaan telegraf membencinya tetapi terpaksa menerimanya
    Industri kode telegraf dimulai sejak awal komersialisasi telegraf dan berlanjut hingga 1920-an
    Tentu ada biayanya juga. Kode sangat mengurangi redundansi, dan kesalahan yang sangat kecil bisa menimbulkan kesalahpahaman besar
    Seperti dijelaskan Gleick, ini justru kebalikan dari cara tabuhan genderang di Afrika menambahkan redundansi untuk memperkuat hubungan antara ritme dan bahasa yang ditirukan genderang

    • Bukankah itu justru kebalikan persis dari tokenmaxxing? Jika analoginya telegraf, maka situasinya seharusnya operator telegraf dinilai bukan dari throughput pelanggan, melainkan dari seberapa lama mereka membuat jalur telegraf terpakai dalam sehari
      Artinya yang menang adalah orang yang membakar token atau biaya paling besar, bukan programmer yang mengirim fitur
      Yang Anda jelaskan lebih dekat ke meminimalkan token, bukan memaksimalkannya
    • Menarik, tetapi tokenmaxxing bukan memaksimalkan efisiensi penggunaan token, melainkan memaksimalkan penggunaannya itu sendiri
    • Yang dijelaskan pada dasarnya adalah kebalikan dari tokenmaxxing
  • Saya selalu penasaran tentang tumpukan perangkat lunak bahkan sebelum era LLM, dan sekarang ini terasa makin relevan
    Kapan perusahaan seperti Uber akan benar-benar “selesai”? Mereka sudah membuat perangkat lunak selama 16 tahun
    Mereka adalah perusahaan yang mencocokkan pengemudi dan penumpang, dan membuat lebih banyak perangkat lunak tidak akan secara besar meningkatkan kemungkinan saya memilih Uber dibanding bus atau kereta
    Apakah perangkat lunak akan selesai 20 tahun lagi? Atau 80 tahun lagi?

    • Sebagian besar codebase adalah integrasi yang disesuaikan per pasar lokal. Sebagiannya bisa disistematisasi, tetapi sebagian besar kompleksitas berasal dari sana
    • Mungkin akan lebih mudah kalau browser, Android, dan iOS berhenti berubah selama lebih dari 16 tahun
      Belum lagi lingkungan regulasi yang terus berubah dan produk baru. Lihat saja kapan Uber Eats muncul
      Dalam 16 tahun itu, Covid-19 terjadi, kendaraan otonom yang praktis mulai muncul, dan kemitraan dengan Waymo juga lahir
      Aplikasi untuk publik yang terhubung lewat jaringan tidak akan pernah bisa “selesai” kecuali Anda punya kemampuan meramal yang sempurna
      Tumpukan teknologi internal itu seperti organisme hidup, dan butuh sangat banyak kerja hanya untuk menjaga layanan yang dari luar tampak tidak berubah. Skalabilitas juga urusan besar, dan skalabilitas serta pemeliharaan terus saling memperbesar
    • Anda tampaknya meremehkan betapa rumitnya operasi internasional dan optimisasi
      Setiap negara punya hukumnya sendiri tentang apa yang boleh dan tidak boleh dilakukan Uber, dan itu harus diformalkan dalam kode
      Misalnya, di beberapa tempat, lewat aplikasi Uber Anda sebenarnya memanggil taksi, dan tarifnya mungkin dihitung per mil, bukan harga tetap di muka
      Lalu ditambah lagi hukum per kota. Kalau Anda naik Uber dari kota A ke kota B yang aturannya berbeda, apa yang harus dilakukan? Pengacara mungkin tahu jawabannya, tetapi aplikasi harus mematuhinya
      Selain itu, hukum terus berubah
      Optimisasi juga tidak ada habisnya. Kecepatan, biaya, rute, selalu ada yang bisa ditingkatkan
      Menurut saya, sebagai konsumen, bagian yang kita lihat hanyalah potongan sangat kecil dari kompleksitas yang harus dibangun dan dioperasikan layanan seperti itu
    • Selalu ada teknologi dan teknik baru yang harus diimplementasikan. Algoritme yang lebih baik, deployment yang lebih besar, dan keandalan yang lebih tinggi juga diperlukan
      Hampir selalu ada bug yang harus diperbaiki. Bug-nya benar-benar sangat banyak
    • Bukankah Uber juga pernah mencoba kendaraan otonom sendiri?
      Ini juga masalah perusahaan yang menerima investasi sangat besar. Nilai Uber didasarkan bukan hanya pada apa yang dilakukannya sekarang, tetapi pada harapan bahwa mereka akan membuat konsep memiliki mobil pribadi atau memakai transportasi umum menjadi usang
      Memang terdengar berlebihan, tetapi tetap tidak seberlebihan yang dibayangkan
  • Tokenmaxxing itu tidak masuk akal. Mirip seperti sengaja menulis job SQL/Spark yang tidak efisien untuk memakai komputasi, memori, dan I/O sebanyak mungkin
    Seolah-olah sengaja memasukkan banyak sekali hasil kali Kartesius dan dataset yang sangat timpang
    Hal seperti ini selalu terjadi ketika metrik dijadikan tujuan. Perusahaan seharusnya membangun lingkungan yang mendorong penggunaan AI seefisien mungkin, dan pertama-tama bertanya, “apakah pekerjaan ini benar-benar butuh agen?”
    Kalau memang perlu, lalu tentukan agen seperti apa, model apa, dan tingkat penalaran seperti apa yang dibutuhkan
    Penghematan token, peningkatan cache hit rate, dan penataan informasi agar bisa dipakai dengan konteks yang lebih sedikit juga harus didorong. Knowledge graph cukup bagus untuk ini

    • Ini logika setingkat balita. “Kalau memakai X bisa menghasilkan hasil bagus, maka untuk memaksimalkan hasil bagus kita harus memakai X sebanyak mungkin”
      Mirip membakar SPBU supaya bisa menang balapan
    • Alasan tokenmaxxing ada adalah karena para eksekutif mengira karyawan menolak perubahan
      Ini cuma cara untuk mendorong atau memaksa semua karyawan bereksperimen dengan teknologi baru
      Kalau semua orang dianggap sudah memanfaatkan AI, hal seperti tokenmaxxing tentu akan berakhir
    • Logika yang membela tokenmaxxing biasanya adalah bahwa ini memberi ruang bagi karyawan untuk secara bebas menjelajahi ruang alur kerja berbasis AI yang luas dan baru
      Saya memang melihat banyak kasus penggunaan yang nilai tambahnya diragukan, tetapi saya juga melihat tim memecahkan masalah lama dengan alur kerja berbentuk agen yang akan sulit dibenarkan di hadapan komite peninjau biaya
      Saya paham bahwa pekerjaan seperti penghematan token, peningkatan cache hit rate, dan penataan informasi untuk penggunaan konteks yang lebih sedikit biasanya tetap dikerjakan terpisah oleh tim khusus di balik layar di sebagian besar perusahaan tokenmaxxing besar
  • Saya paham kenapa perusahaan membakar uang untuk pengembangan dengan bantuan AI. Tapi bagaimana dengan return on investment secara keseluruhan? Apakah nilainya benar-benar sepadan dengan peningkatan efisiensi yang diklaim?
    Ini satu-satunya hal yang sebenarnya menarik dari demam AI, dan saya tidak tahu kenapa tidak ada yang membicarakannya

    • Menurut saya karena tidak banyak orang yang tahu cara mengukurnya dengan benar
      Dengan Claude, Anda bisa membuat 5 fitur yang buruk atau tidak berguna dalam sehari, atau 1 fitur yang berguna dalam dua hari. Mana yang lebih baik dampaknya terhadap return on investment?
      Dari contoh saja kelihatannya seperti pertanyaan yang mudah dijawab, tetapi di dunia nyata jauh lebih rumit dan jauh lebih sulit diukur
      Karena itu, banyak perusahaan tampaknya memilih jalan mudah: berhenti mengukur dan mengikuti hype
  • Saya yakin ketika AI dipakai dengan benar, termasuk code review, batas peningkatan maksimum yang berkelanjutan adalah sekitar 20% untuk engineer senior dengan tingkat kemahiran yang sesuai
    Anggaran token engineer mana pun tidak seharusnya melampaui itu
    Saya tidak percaya engineer yang melakukan tokenmaxxing benar-benar produktif, dan saya sama sekali belum pernah melihat buktinya. Bahkan bisa jadi justru sebaliknya
    Dengan alur kerja yang benar dan pengetahuan codebase yang memadai, saya sendiri merasakan bahwa tingkat itu memang mungkin dicapai dengan upaya yang berkelanjutan

  • AI untuk produktivitas engineering tampaknya banyak disalahpahami sebagai tombol ajaib yang menghasilkan hasil yang sama dengan lebih cepat dan lebih murah
    Dengan logika seperti itu, wajar saja kalau orang ingin memaksa karyawan melakukan tokenmaxxing. Kalau bisa mendapat lebih banyak hasil lebih cepat dan lebih murah, kenapa tidak?
    Kalau dilihat lebih cermat, gambarannya begini. AI memang membantu mencapai roadmap agak lebih cepat, tetapi ia juga menimbulkan utang teknis yang mirip seperti jika Anda menyewa developer sementara untuk membuat fitur
    Belum tentu ada orang di dalam tim yang benar-benar memahami kode baru itu
    Demikian juga, peningkatan keterampilan anggota tim junior juga jadi lebih sedikit. Lebih sulit mendapatkan arbitrase antara keterampilan dan upah seperti dulu
    Produk juga bisa menjadi lebih kompleks. Ada alasan kenapa fitur P2 tetap P2, dan AI bisa membuat fitur dengan manfaat marjinal rendah ikut dimasukkan sehingga produk menjadi lebih rumit

  • Saya kaget ada orang yang pernah menganggap tokenmaxxing sebagai ide bagus
    Para maksimalis AI sering membandingkan teknologi ini dengan listrik. Bayangkan pada masa awal elektrifikasi, para CEO memberi imbalan kepada karyawan atas peningkatan konsumsi listrik alih-alih mencari cara memakai listrik yang benar-benar meningkatkan hasil bisnis
    Pada masa itu, orang yang menunjukkan tanda-tanda gangguan jiwa sering dimasukkan ke institusi, dan mungkin itu memang akan jadi akhirnya

    • Masalahnya, di tingkat individu ini memang strategi yang bagus. Manajemen yang buruk membaca ini sebagai sinyal produktivitas