Tokenmaxxing Sudah Mati, Hidup Tokenmaxxing
(12gramsofcarbon.com)- Pada tahap awal adopsi AI di perusahaan, tokenmaxxing yang mengaitkan penggunaan token dengan evaluasi kinerja menciptakan biaya yang tidak bermakna, tetapi juga berperan memaksa penggunaan alat AI menyebar ke seluruh organisasi
- Di Meta, ketika penggunaan token per individu dikaitkan dengan evaluasi, bahkan muncul penggunaan formalitas seperti membiarkan dua agen saling bercakap sepanjang hari demi menaikkan angka token
- Di masa lalu, menjalankan agen dalam waktu lama berisiko karena kesalahan majemuk (compounding error), ketika kesalahan kecil terus menumpuk, tetapi belakangan muncul arus ketepatan majemuk (compounding correctness), di mana lebih banyak token menghasilkan hasil yang lebih baik
- Di bidang keamanan, mulai muncul pendekatan yang mengalokasikan anggaran token besar ke model seperti Mythos untuk menemukan kerentanan, sehingga tercipta struktur di mana pihak bertahan harus mengeluarkan komputasi lebih banyak daripada penyerang
- Ke depan, alih-alih membelanjakan tanpa batas pada model papan atas yang mahal, pusat praktis tokenmaxxing bisa bergeser ke cara memutar model terbuka yang murah lebih banyak kali dalam loop
Tokenmaxxing yang bermula dari konsumsi token tanpa makna
- tokenmaxxing merujuk pada fenomena ketika eksekutif mendorong karyawan untuk memakai banyak token, sehingga token habis bahkan untuk pekerjaan bernilai rendah
- Sebagai contoh yang paling dikenal, Meta dikritik karena mengaitkan evaluasi kinerja dengan penggunaan token per individu
- Seorang karyawan Meta mengatakan bahwa demi menaikkan angka token, ia membiarkan dua agen saling berbicara sepanjang hari
- Dari luar, ini tampak seperti manajemen yang membakar biaya tanpa pemasukan, tetapi juga bisa dilihat sebagai kebijakan untuk memaksa penyebaran penggunaan alat AI
- Sampai beberapa bulan lalu, di dalam organisasi masih banyak tenaga senior yang sangat menolak penggunaan alat AI, dan bahkan ketika berhasil diyakinkan pun, alat itu kadang dipakai dengan cara yang aneh atau mudah menghasilkan hasil buruk
- Dalam situasi seperti ini, tekanan penggunaan token dari atas berfungsi sebagai alat pemaksaan yang tumpul untuk menembus tembok
Kebijakan penggunaan tak terbatas pertama yang berakhir karena tekanan biaya
- Kebijakan tokenmaxxing sampai taraf tertentu efektif, dan sekarang hampir semua tim setidaknya sudah sedikit melakukan coding dengan AI
- Banyak tim masih belum mampu membuat sistem internal seperti Ramp Inspect atau Stripe Minions, tetapi pada dasarnya sudah sampai pada tingkat menggunakan Cursor di sidebar
- Di tengah lonjakan besar penggunaan token, OpenAI dan Anthropic, yang sedang mendorong langkah menuju IPO, membatasi kuota langganan dan menaikkan harga API
- Seiring subsidi token juga berkurang, mulai muncul tim yang membatalkan kebijakan penggunaan token tak terbatas
- tokenmaxxing tanpa batas dalam makna lamanya semakin mendekati tahap yang sulit bertahan dari peninjauan biaya
Dari kesalahan majemuk ke ketepatan majemuk
- Harapan terhadap alat AI adalah membuatnya menangani pekerjaan sulit dan membosankan tanpa perlu diawasi manusia terus-menerus
- migrasi kode skala besar
- riset pesaing setiap pagi
- pemrosesan alur inbound dan outbound
- Dulu, makin lama AI dijalankan, makin banyak kesalahan kecil dan halusinasi model yang menumpuk di dalam proyek sehingga sulit dipulihkan
- Fenomena ini disebut kesalahan majemuk (compounding error), dan karena membutuhkan banyak pengawasan manusia, juga tidak banyak alasan untuk menjalankan agen selama 24 jam
- Kini lingkungannya berubah menjadi ketepatan majemuk (compounding correctness), di mana penggunaan token yang lebih banyak meningkatkan kemungkinan jawaban benar
- Jika pengeluaran token terhubung dengan kualitas hasil, maka insentif untuk kembali memakai banyak token pun muncul lagi
Persaingan anggaran token yang lebih dulu terlihat di bidang keamanan
- Di keamanan siber, sudah muncul contoh ketika pengeluaran token terhubung langsung dengan hasil
- Cybersecurity is Proof of Work Now menggunakan Mythos dari Anthropic sebagai contoh, dan berargumen bahwa untuk memperkuat sistem, pihak bertahan harus memakai lebih banyak token untuk menemukan kerentanan daripada yang dipakai penyerang untuk mengeksploitasinya
- AISI menetapkan anggaran 100M token per percobaan Mythos, yang setara dengan $12,500 per percobaan dan $125,000 untuk 10 kali eksekusi
- Model yang diberi anggaran 100M token tidak menunjukkan tanda hasil yang menurun, dan AISI menyatakan bahwa dalam rentang anggaran token yang diuji, model terus membuat kemajuan ketika anggaran ditambah
- Dalam struktur ini, yang menjadi lebih penting daripada kecerdikan adalah jumlah kerja komputasi dan anggaran token yang sanggup dibayar
Loop dan eksekusi agen jangka panjang
- Minat pada loops yang dibicarakan Boris Cherny di panggung Claude Code juga terhubung dengan arus yang sama
- Struktur dasar loops adalah menjalankan agen sampai ia menyelesaikan gilirannya, lalu setelah selesai memulai kembali prompt yang sama
- Ini memungkinkan spesifikasi yang berat dipecah secara otomatis, dan agen menyelesaikannya per bagian seiring waktu
- Konsep ini bukan hal baru; ini sudah ada sejak Juli tahun lalu dan pernah disebut “Ralph Wiggum loop”
- Dulu, hal ini membutuhkan pemahaman mendalam tentang desain prompt dan perilaku agen, tetapi berkat ketepatan majemuk, kini lebih mudah mengharapkan hasil pendekatan yang makin membaik setiap kali diulang
Model terbuka dan eksekusi berulang yang lebih hemat biaya
- Dalam jangka panjang, pemenang tokenmaxxing bisa jadi adalah platform model terbuka
- Cara menghabiskan token dalam jumlah besar pada model dari lab papan atas sulit lolos peninjauan CFO
- Semakin baik model terbuka, semakin menarik pula pendekatan menjalankan model murah lebih banyak kali di dalam loop
- Misalnya, jika Claude memberi peningkatan 1.1x per iterasi dan GLM 5.2 memberi peningkatan 1.05x tetapi biayanya sekitar seperlima, maka bisa jadi lebih baik menjalankan loop GLM 5.2 sebanyak 5 kali lebih banyak
- Di bagian “Other things” juga disebut bahwa GLM 5.2 bukan yang paling mutakhir, tetapi jauh lebih murah daripada model frontier
- GLM 5.2: sekitar $1.4 per 1 juta token input, $4 per 1 juta token output
- seri Opus 4.X: $5 per 1 juta token input, $25 per 1 juta token output
- Haiku 4.5: $1 per 1 juta token input, $5 per 1 juta token output
- GLM 5.2 disebut lebih kuat daripada Haiku, dan pada beberapa benchmark bahkan kadang lebih kuat daripada GPT 5.5
Perbedaan antara pengeluaran untuk pengembang dan pengeluaran untuk pipeline
- Dalam tokenmaxxing ada dua bentuk yang berbeda
- Yang pertama adalah pengeluaran token untuk pengembang
- Pengembang memakai alat seperti Claude Code dan menjalankan loops, sehingga mengonsumsi banyak token
- Jika itu meningkatkan produktivitas engineer, ini bisa menjadi pengeluaran yang baik
- Yang kedua adalah pengeluaran token untuk pipeline
- Pengembang masih menulis kode dengan tangan, lalu dari kode itu membuat agen sekali pakai untuk tugas tertentu
- Agen-agen ini bekerja dengan cara yang non-deterministik dan rapuh sambil menghabiskan banyak token
- Ini hanya menjadi pengeluaran yang baik jika pipeline benar-benar bekerja, tetapi agen semacam itu tidak seakurat pipeline deterministik
- Jika menambahkan agen pemeriksa kualitas untuk menurunkan biaya halusinasi, lalu menambahkan agen lain lagi untuk menangkap kesalahan dari agen pemeriksa itu, biaya token menjadi 3 kali lipat
- Arus yang makin besar adalah alat berbentuk pipeline sekali pakai ditangani bukan sebagai agen untuk tugas tertentu, melainkan sebagai platform umum yang dibungkus antarmuka untuk tugas tertentu
Pabrik perangkat lunak dan pengeluaran token ekstrem
- Titik akhir yang alami adalah software factory, dan lebih jauh lagi dark factory
- Dalam struktur ini, codebase membuat kode, meninjaunya, memperbaiki bug, dan menulis tes tanpa pengawasan manusia
- Manusia hanya berperan memasukkan spesifikasi lalu menerima aplikasinya
- Software factory milik StrongDM disebut sebagai contoh yang mendorong arah ini sampai ke titik ekstrem
- Pihak StrongDM berpendapat bahwa engineer seharusnya menargetkan penggunaan token senilai $1000 per hari, tetapi ini dinilai sangat bernada promosi dan berlebihan
- Disebutkan bahwa software factory mereka sendiri memakai sekitar $600 per bulan, dan saat ini dianggap berlebihan untuk menghabiskan biaya token setara engineer senior Google per engineer
- Meski begitu, insentif untuk membelanjakan uang besar pada token berpotensi memang ada, dan saat ini masih menunggu penyebaran lebih luas
1 komentar
Komentar Hacker News
Tokenmaxxing hanyalah cara untuk memaksa karyawan beralih agar memakai AI secara bermakna
Perusahaan yang dulu mengukur kinerja dari pengeluaran token kini bisa menurunkan intensitasnya. Karyawan belajar apa yang mungkin dan tidak mungkin dilakukan dengan mencoba memakai AI bahkan untuk hal-hal yang sebelumnya tidak akan mereka pakai AI
Tidak ada yang cukup bodoh untuk selamanya menjadikan pengeluaran token sebagai tolok ukur kinerja dan memberi anggaran tak terbatas. Sejak awal, menurut saya itu langkah sementara untuk memindahkan karyawan ke lingkungan baru
Manajemen merasa karyawan tidak cukup cepat memanfaatkan AI, jadi pada 2025 juga banyak artikel arus utama tentang CEO yang menekan karyawan dengan ancaman dipecat jika tidak memakai AI. Tokenmaxxing adalah ekstrem di sisi sebaliknya, dan perusahaan pada akhirnya akan mencapai titik keseimbangan
Tidak perlu dipikirkan terlalu dalam
Selain itu, salah satu balasan mengutip utas X ini sebagai contoh mengapa manajemen perlu mengambil langkah seperti itu. Mengubah perusahaan berukuran ratusan/ribuan/puluhan ribu orang itu sulit, dan pesannya harus sederhana, satu per satu. https://x.com/danluu/status/1487228574608211969?lang=en
Kenyataannya, ini lebih terlihat seperti lapisan manajer yang dibayar berlebihan, terlalu jauh dari tempat penciptaan nilai untuk memahami kelemahan LLM, lalu membabi buta mengikuti tren
Di sebagian besar perusahaan, skenario terbaiknya adalah fokus pada “orang lain melakukannya, jadi kita juga”, dan skenario buruknya lebih seperti “mari lihat apakah developer Joe bisa seproduktif seluruh tim, lalu pecat sisanya”
Nyatanya, banyak perusahaan juga melakukan PHK besar-besaran dengan alasan “kinerja kurang karena pengeluaran token rendah”
Untuk kasus kebodohan manajemen yang spesifik ini, mungkin memang pas begitu saja, tetapi secara lebih umum ini tulisan yang indah
Saya berharap bisa punya keyakinan yang sesalah ini terhadap siapa pun, apalagi seorang CEO
Saat itu, seseorang yang masih junior mengatakan perusahaannya menerapkan sistem mirip “Tokenmaxxing” untuk A/B testing. Semakin banyak tes yang dilakukan, semakin menguntungkan untuk penilaian kinerja. Waktu itu saya pikir itu bodoh, tetapi pada akhirnya memang membuat semua orang terbiasa dengan apa itu eksperimen dan cara menjalankannya
Namun, jauh lebih mungkin manajer di perusahaan besar mendapat tekanan dari VP untuk melakukan AI, lalu VP mendapat tekanan dari jajaran eksekutif. Jajaran eksekutif kemungkinan mendapat tekanan untuk menghadirkan strategi AI yang terdengar seperti sihir, yang bisa memangkas biaya sekaligus menskalakan perusahaan tanpa batas
Dalam lingkungan seperti itu, yang lebih masuk akal adalah menyalin-tempel grafik Gartner, mencampurnya dengan buzzword yang dipungut dari konferensi, lalu berharap seseorang di suatu tempat suatu hari mengubahnya menjadi sesuatu yang tampak seperti kemajuan
Saya sudah mendengar setidaknya setahun bahwa “kali ini berbeda, agent mengakumulasi keberhasilan, bukan kesalahan”, tetapi sampai sekarang belum terlihat begitu
Saya beruntung mendapat pelatihan AI satu minggu seharga 50 ribu dolar per orang dari orang-orang yang mengatakan hal semacam itu, dan salah satu rekomendasi konkret yang lumayan membantu adalah sering-sering mengosongkan konteks agar pekerjaan tidak melenceng
Namun, untuk mencari kerentanan keamanan, ini mungkin tidak relevan. Tokenmaxxing jelas efektif untuk kegunaan itu. Industri sekarang sedang mengadopsi continuous fuzzing yang sangat mahal dan rumit
Dulu ada alat dengan fitur seperti itu, Zed, dan Text Threads yang dinamai belakangan, tetapi sekarang fitur itu juga sudah dihapus
Saya penasaran siapa mereka sampai ada orang yang menganggap investasi seperti itu layak
Pernyataan “bayangkan pemimpin perusahaan serius, misalnya seseorang seperti Mark Zuckerberg, mengumumkan bahwa Meta akan membakar uang” mirip dengan, katakanlah, mendeklarasikan peralihan ke metaverse dan bahkan mengganti nama perusahaan untuk menunjukkan keseriusan
Bagian “menggunakan lebih banyak token umumnya menghasilkan hasil yang lebih baik. Kami menyebutnya ‘compound interest of correctness’” terasa aneh
Apakah kita benar-benar sudah masuk fase seperti itu? Benarkah secara umum makin banyak token yang dipakai biasanya memberi hasil lebih baik? Pandangan ini begitu aneh sampai saya curiga penulisnya mendapat keuntungan finansial dari Tokenmaxxing
Ini seperti neraka. Kalau neraka adalah tempat di mana kita selamanya terjebak di roller coaster tidak nyaman yang perawatannya berantakan, rasanya persis begini
Judul yang lebih cocok untuk isi tulisannya mungkin “Laporan tentang kematian Tokenmaxxing sangat dilebih-lebihkan”
Secara pribadi saya tidak suka penggunaan idiom judul tidak masuk akal seperti “x sudah mati, panjang umur x”
Apa yang dimaksud loop di sini? Apakah mengulang prompt yang sama sampai hasil yang diinginkan muncul? Bukankah hasil-hasil pengulangannya akan terlalu mirip satu sama lain?
https://github.com/topics/loop-engineering
Kriterianya sering kali hanya daftar tugas yang diperbarui. Salah satu “harness” yang amat sangat sederhana seperti ini bahkan disebut Ralph Wiggum Loop[1], sebagai sindiran terhadap Tokenmaxxing yang kosong pikirannya tetapi gigih yang dihasilkannya
[1] https://awesomeclaude.ai/ralph-wiggum
Hal seperti ini tampaknya berulang pada tahun-tahun awal adopsi teknologi besar
Saat booming big data awal 2010-an pun, para eksekutif membeli cluster Spark dan data lake terlebih dahulu tanpa use case analitik atau tata kelola yang jelas
“Hampir tidak pernah terdengar pemimpin perusahaan mengatakan akan membakar uang demi merasa senang”, benarkah?
Sekitar 4 tahun lalu, CEO kami beberapa kali menerbangkan konsultan untuk melakukan latihan team building. Kami tidak mampu mengganti server dalam siklus 3 tahunan, tetapi biaya konsultan itu dibayar tanpa masalah
Baru-baru ini, mereka juga memanggil konsultan branding, lalu menghabiskan ribuan dolar biaya AWS untuk me-rebrand semua foto. Kami beroperasi di pasar tertawan. Untuk menjual di pasar kami, langganan layanan kami wajib, dan kalau di luar pasar itu, orang bahkan tidak bisa berlangganan. Pada akhirnya, branding meningkatkan pendapatan sebesar 0
Di perusahaan tempat saya pernah bekerja dulu, salah satu hal pertama yang dilakukan CTO baru begitu masuk adalah membuat aturan penggantian nama server. Aturannya memakai nama kota-kota di seluruh dunia yang asing bagi karyawan yang berpusat di AS: server database memakai kota Swiss, server web Denmark, storage Finlandia. Nama yang tadinya memperlakukan server seperti kawanan ternak berubah menjadi nama hewan peliharaan, dan CTO itu bertahan sekitar 6 bulan
Dalam pengalaman saya, pimpinan perusahaan tidak sehemat yang dibayangkan tulisan ini
Sulit membayangkan seseorang bekerja di lingkungan korporat tanpa pernah melihat contoh jelas pemborosan seperti ini. Konsultan yang dibayar berlebihan dan anggaran yang harus dihabiskan adalah contoh klasik
Film Office Space keluar 27 tahun lalu, dan alurnya menyindir “konsultan efisiensi” bergaji berlebihan yang tugasnya hanya menyuruh manajemen memecat orang
Lebih tepatnya, “karena ini membantu karier saya”