Tokenmaxxing Sudah Mati, Hidup Tokenmaxxing

(12gramsofcarbon.com)

2 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

Pada tahap awal adopsi AI di perusahaan, tokenmaxxing yang mengaitkan penggunaan token dengan evaluasi kinerja menciptakan biaya yang tidak bermakna, tetapi juga berperan memaksa penggunaan alat AI menyebar ke seluruh organisasi
Di Meta, ketika penggunaan token per individu dikaitkan dengan evaluasi, bahkan muncul penggunaan formalitas seperti membiarkan dua agen saling bercakap sepanjang hari demi menaikkan angka token
Di masa lalu, menjalankan agen dalam waktu lama berisiko karena kesalahan majemuk (compounding error), ketika kesalahan kecil terus menumpuk, tetapi belakangan muncul arus ketepatan majemuk (compounding correctness), di mana lebih banyak token menghasilkan hasil yang lebih baik
Di bidang keamanan, mulai muncul pendekatan yang mengalokasikan anggaran token besar ke model seperti Mythos untuk menemukan kerentanan, sehingga tercipta struktur di mana pihak bertahan harus mengeluarkan komputasi lebih banyak daripada penyerang
Ke depan, alih-alih membelanjakan tanpa batas pada model papan atas yang mahal, pusat praktis tokenmaxxing bisa bergeser ke cara memutar model terbuka yang murah lebih banyak kali dalam loop

Tokenmaxxing yang bermula dari konsumsi token tanpa makna

tokenmaxxing merujuk pada fenomena ketika eksekutif mendorong karyawan untuk memakai banyak token, sehingga token habis bahkan untuk pekerjaan bernilai rendah
Sebagai contoh yang paling dikenal, Meta dikritik karena mengaitkan evaluasi kinerja dengan penggunaan token per individu
- Seorang karyawan Meta mengatakan bahwa demi menaikkan angka token, ia membiarkan dua agen saling berbicara sepanjang hari
Dari luar, ini tampak seperti manajemen yang membakar biaya tanpa pemasukan, tetapi juga bisa dilihat sebagai kebijakan untuk memaksa penyebaran penggunaan alat AI
Sampai beberapa bulan lalu, di dalam organisasi masih banyak tenaga senior yang sangat menolak penggunaan alat AI, dan bahkan ketika berhasil diyakinkan pun, alat itu kadang dipakai dengan cara yang aneh atau mudah menghasilkan hasil buruk
Dalam situasi seperti ini, tekanan penggunaan token dari atas berfungsi sebagai alat pemaksaan yang tumpul untuk menembus tembok

Kebijakan penggunaan tak terbatas pertama yang berakhir karena tekanan biaya

Kebijakan tokenmaxxing sampai taraf tertentu efektif, dan sekarang hampir semua tim setidaknya sudah sedikit melakukan coding dengan AI
Banyak tim masih belum mampu membuat sistem internal seperti Ramp Inspect atau Stripe Minions, tetapi pada dasarnya sudah sampai pada tingkat menggunakan Cursor di sidebar
Di tengah lonjakan besar penggunaan token, OpenAI dan Anthropic, yang sedang mendorong langkah menuju IPO, membatasi kuota langganan dan menaikkan harga API
Seiring subsidi token juga berkurang, mulai muncul tim yang membatalkan kebijakan penggunaan token tak terbatas
tokenmaxxing tanpa batas dalam makna lamanya semakin mendekati tahap yang sulit bertahan dari peninjauan biaya

Dari kesalahan majemuk ke ketepatan majemuk

Harapan terhadap alat AI adalah membuatnya menangani pekerjaan sulit dan membosankan tanpa perlu diawasi manusia terus-menerus
- migrasi kode skala besar
- riset pesaing setiap pagi
- pemrosesan alur inbound dan outbound
Dulu, makin lama AI dijalankan, makin banyak kesalahan kecil dan halusinasi model yang menumpuk di dalam proyek sehingga sulit dipulihkan
Fenomena ini disebut kesalahan majemuk (compounding error), dan karena membutuhkan banyak pengawasan manusia, juga tidak banyak alasan untuk menjalankan agen selama 24 jam
Kini lingkungannya berubah menjadi ketepatan majemuk (compounding correctness), di mana penggunaan token yang lebih banyak meningkatkan kemungkinan jawaban benar
Jika pengeluaran token terhubung dengan kualitas hasil, maka insentif untuk kembali memakai banyak token pun muncul lagi

Persaingan anggaran token yang lebih dulu terlihat di bidang keamanan

Di keamanan siber, sudah muncul contoh ketika pengeluaran token terhubung langsung dengan hasil
Cybersecurity is Proof of Work Now menggunakan Mythos dari Anthropic sebagai contoh, dan berargumen bahwa untuk memperkuat sistem, pihak bertahan harus memakai lebih banyak token untuk menemukan kerentanan daripada yang dipakai penyerang untuk mengeksploitasinya
AISI menetapkan anggaran 100M token per percobaan Mythos, yang setara dengan $12,500 per percobaan dan $125,000 untuk 10 kali eksekusi
Model yang diberi anggaran 100M token tidak menunjukkan tanda hasil yang menurun, dan AISI menyatakan bahwa dalam rentang anggaran token yang diuji, model terus membuat kemajuan ketika anggaran ditambah
Dalam struktur ini, yang menjadi lebih penting daripada kecerdikan adalah jumlah kerja komputasi dan anggaran token yang sanggup dibayar

Loop dan eksekusi agen jangka panjang

Minat pada loops yang dibicarakan Boris Cherny di panggung Claude Code juga terhubung dengan arus yang sama
Struktur dasar loops adalah menjalankan agen sampai ia menyelesaikan gilirannya, lalu setelah selesai memulai kembali prompt yang sama
Ini memungkinkan spesifikasi yang berat dipecah secara otomatis, dan agen menyelesaikannya per bagian seiring waktu
Konsep ini bukan hal baru; ini sudah ada sejak Juli tahun lalu dan pernah disebut “Ralph Wiggum loop”
Dulu, hal ini membutuhkan pemahaman mendalam tentang desain prompt dan perilaku agen, tetapi berkat ketepatan majemuk, kini lebih mudah mengharapkan hasil pendekatan yang makin membaik setiap kali diulang

Model terbuka dan eksekusi berulang yang lebih hemat biaya

Dalam jangka panjang, pemenang tokenmaxxing bisa jadi adalah platform model terbuka
Cara menghabiskan token dalam jumlah besar pada model dari lab papan atas sulit lolos peninjauan CFO
Semakin baik model terbuka, semakin menarik pula pendekatan menjalankan model murah lebih banyak kali di dalam loop
Misalnya, jika Claude memberi peningkatan 1.1x per iterasi dan GLM 5.2 memberi peningkatan 1.05x tetapi biayanya sekitar seperlima, maka bisa jadi lebih baik menjalankan loop GLM 5.2 sebanyak 5 kali lebih banyak
Di bagian “Other things” juga disebut bahwa GLM 5.2 bukan yang paling mutakhir, tetapi jauh lebih murah daripada model frontier
- GLM 5.2: sekitar $1.4 per 1 juta token input, $4 per 1 juta token output
- seri Opus 4.X: $5 per 1 juta token input, $25 per 1 juta token output
- Haiku 4.5: $1 per 1 juta token input, $5 per 1 juta token output
- GLM 5.2 disebut lebih kuat daripada Haiku, dan pada beberapa benchmark bahkan kadang lebih kuat daripada GPT 5.5

Perbedaan antara pengeluaran untuk pengembang dan pengeluaran untuk pipeline

Dalam tokenmaxxing ada dua bentuk yang berbeda
Yang pertama adalah pengeluaran token untuk pengembang
- Pengembang memakai alat seperti Claude Code dan menjalankan loops, sehingga mengonsumsi banyak token
- Jika itu meningkatkan produktivitas engineer, ini bisa menjadi pengeluaran yang baik
Yang kedua adalah pengeluaran token untuk pipeline
- Pengembang masih menulis kode dengan tangan, lalu dari kode itu membuat agen sekali pakai untuk tugas tertentu
- Agen-agen ini bekerja dengan cara yang non-deterministik dan rapuh sambil menghabiskan banyak token
- Ini hanya menjadi pengeluaran yang baik jika pipeline benar-benar bekerja, tetapi agen semacam itu tidak seakurat pipeline deterministik
Jika menambahkan agen pemeriksa kualitas untuk menurunkan biaya halusinasi, lalu menambahkan agen lain lagi untuk menangkap kesalahan dari agen pemeriksa itu, biaya token menjadi 3 kali lipat
Arus yang makin besar adalah alat berbentuk pipeline sekali pakai ditangani bukan sebagai agen untuk tugas tertentu, melainkan sebagai platform umum yang dibungkus antarmuka untuk tugas tertentu

Pabrik perangkat lunak dan pengeluaran token ekstrem

Titik akhir yang alami adalah software factory, dan lebih jauh lagi dark factory
Dalam struktur ini, codebase membuat kode, meninjaunya, memperbaiki bug, dan menulis tes tanpa pengawasan manusia
Manusia hanya berperan memasukkan spesifikasi lalu menerima aplikasinya
Software factory milik StrongDM disebut sebagai contoh yang mendorong arah ini sampai ke titik ekstrem
Pihak StrongDM berpendapat bahwa engineer seharusnya menargetkan penggunaan token senilai $1000 per hari, tetapi ini dinilai sangat bernada promosi dan berlebihan
Disebutkan bahwa software factory mereka sendiri memakai sekitar $600 per bulan, dan saat ini dianggap berlebihan untuk menghabiskan biaya token setara engineer senior Google per engineer
Meski begitu, insentif untuk membelanjakan uang besar pada token berpotensi memang ada, dan saat ini masih menunggu penyebaran lebih luas

1 komentar

GN⁺ 4 jam lalu

Komentar Hacker News

Tokenmaxxing hanyalah cara untuk memaksa karyawan beralih agar memakai AI secara bermakna
Perusahaan yang dulu mengukur kinerja dari pengeluaran token kini bisa menurunkan intensitasnya. Karyawan belajar apa yang mungkin dan tidak mungkin dilakukan dengan mencoba memakai AI bahkan untuk hal-hal yang sebelumnya tidak akan mereka pakai AI
Tidak ada yang cukup bodoh untuk selamanya menjadikan pengeluaran token sebagai tolok ukur kinerja dan memberi anggaran tak terbatas. Sejak awal, menurut saya itu langkah sementara untuk memindahkan karyawan ke lingkungan baru
Manajemen merasa karyawan tidak cukup cepat memanfaatkan AI, jadi pada 2025 juga banyak artikel arus utama tentang CEO yang menekan karyawan dengan ancaman dipecat jika tidak memakai AI. Tokenmaxxing adalah ekstrem di sisi sebaliknya, dan perusahaan pada akhirnya akan mencapai titik keseimbangan
Tidak perlu dipikirkan terlalu dalam
Selain itu, salah satu balasan mengutip utas X ini sebagai contoh mengapa manajemen perlu mengambil langkah seperti itu. Mengubah perusahaan berukuran ratusan/ribuan/puluhan ribu orang itu sulit, dan pesannya harus sederhana, satu per satu. https://x.com/danluu/status/1487228574608211969?lang=en
- Implikasi bahwa Tokenmaxxing adalah pendekatan yang disengaja dan hati-hati itu terlalu lucu
  Kenyataannya, ini lebih terlihat seperti lapisan manajer yang dibayar berlebihan, terlalu jauh dari tempat penciptaan nilai untuk memahami kelemahan LLM, lalu membabi buta mengikuti tren
- Kalau mendengar logika yang dipakai para VP dan eksekutif puncak selama kegilaan Tokenmaxxing, tafsir bahwa itu adalah “langkah sengaja untuk membuat karyawan memanfaatkan AI secara bermakna” terasa terlalu murah hati
  Di sebagian besar perusahaan, skenario terbaiknya adalah fokus pada “orang lain melakukannya, jadi kita juga”, dan skenario buruknya lebih seperti “mari lihat apakah developer Joe bisa seproduktif seluruh tim, lalu pecat sisanya”
  Nyatanya, banyak perusahaan juga melakukan PHK besar-besaran dengan alasan “kinerja kurang karena pengeluaran token rendah”
- Ini mungkin mendekati penjelasan paling simpatik yang bisa diberikan manusia
  Untuk kasus kebodohan manajemen yang spesifik ini, mungkin memang pas begitu saja, tetapi secara lebih umum ini tulisan yang indah
  Saya berharap bisa punya keyakinan yang sesalah ini terhadap siapa pun, apalagi seorang CEO
- Saya teringat cerita yang pernah saya lihat di HN. Intinya, makin besar organisasi, pesan dan alatnya harus sederhana agar bisa menjangkau semua orang
  Saat itu, seseorang yang masih junior mengatakan perusahaannya menerapkan sistem mirip “Tokenmaxxing” untuk A/B testing. Semakin banyak tes yang dilakukan, semakin menguntungkan untuk penilaian kinerja. Waktu itu saya pikir itu bodoh, tetapi pada akhirnya memang membuat semua orang terbiasa dengan apa itu eksperimen dan cara menjalankannya
- Untuk tim kecil dengan manajer yang naik dari internal, niat seperti ini mungkin memang ada
  Namun, jauh lebih mungkin manajer di perusahaan besar mendapat tekanan dari VP untuk melakukan AI, lalu VP mendapat tekanan dari jajaran eksekutif. Jajaran eksekutif kemungkinan mendapat tekanan untuk menghadirkan strategi AI yang terdengar seperti sihir, yang bisa memangkas biaya sekaligus menskalakan perusahaan tanpa batas
  Dalam lingkungan seperti itu, yang lebih masuk akal adalah menyalin-tempel grafik Gartner, mencampurnya dengan buzzword yang dipungut dari konferensi, lalu berharap seseorang di suatu tempat suatu hari mengubahnya menjadi sesuatu yang tampak seperti kemajuan
Saya sudah mendengar setidaknya setahun bahwa “kali ini berbeda, agent mengakumulasi keberhasilan, bukan kesalahan”, tetapi sampai sekarang belum terlihat begitu
Saya beruntung mendapat pelatihan AI satu minggu seharga 50 ribu dolar per orang dari orang-orang yang mengatakan hal semacam itu, dan salah satu rekomendasi konkret yang lumayan membantu adalah sering-sering mengosongkan konteks agar pekerjaan tidak melenceng
Namun, untuk mencari kerentanan keamanan, ini mungkin tidak relevan. Tokenmaxxing jelas efektif untuk kegunaan itu. Industri sekarang sedang mengadopsi continuous fuzzing yang sangat mahal dan rumit
- Bahkan model frontier terbaru pun mendapat keuntungan besar dari pemangkasan konteks yang cermat, pemeliharaan, dan penulisan ulang untuk menghapus kesalahan, jadi mengejutkan bahwa tidak ada alat yang menjadikan ini sebagai inti
  Dulu ada alat dengan fitur seperti itu, Zed, dan Text Threads yang dinamai belakangan, tetapi sekarang fitur itu juga sudah dihapus
- Pelatihan AI satu minggu seharga 50 ribu dolar per orang terdengar seperti jualan penipuan yang sulit dipercaya
  Saya penasaran siapa mereka sampai ada orang yang menganggap investasi seperti itu layak
Pernyataan “bayangkan pemimpin perusahaan serius, misalnya seseorang seperti Mark Zuckerberg, mengumumkan bahwa Meta akan membakar uang” mirip dengan, katakanlah, mendeklarasikan peralihan ke metaverse dan bahkan mengganti nama perusahaan untuk menunjukkan keseriusan
Bagian “menggunakan lebih banyak token umumnya menghasilkan hasil yang lebih baik. Kami menyebutnya ‘compound interest of correctness’” terasa aneh
Apakah kita benar-benar sudah masuk fase seperti itu? Benarkah secara umum makin banyak token yang dipakai biasanya memberi hasil lebih baik? Pandangan ini begitu aneh sampai saya curiga penulisnya mendapat keuntungan finansial dari Tokenmaxxing
- Mungkin punya cukup banyak saham NVDA
Ini seperti neraka. Kalau neraka adalah tempat di mana kita selamanya terjebak di roller coaster tidak nyaman yang perawatannya berantakan, rasanya persis begini
Judul yang lebih cocok untuk isi tulisannya mungkin “Laporan tentang kematian Tokenmaxxing sangat dilebih-lebihkan”
Secara pribadi saya tidak suka penggunaan idiom judul tidak masuk akal seperti “x sudah mati, panjang umur x”
- “Panjang umur x” sebenarnya adalah meme malas yang bisa menarik perhatian tanpa harus memikirkan judul yang benar-benar pantas
- Judul itu lebih bagus! Saya menambahkannya sebagai subjudul
Apa yang dimaksud loop di sini? Apakah mengulang prompt yang sama sampai hasil yang diinginkan muncul? Bukankah hasil-hasil pengulangannya akan terlalu mirip satu sama lain?
- Sepertinya sekarang selain prompt “engineering”, ada juga loop “engineering”
  https://github.com/topics/loop-engineering
- Bukan harus sampai hasil yang diinginkan muncul, lebih tepatnya berulang sampai LLM itu sendiri menilai “selesai” berdasarkan kriteria yang diberikan
  Kriterianya sering kali hanya daftar tugas yang diperbarui. Salah satu “harness” yang amat sangat sederhana seperti ini bahkan disebut Ralph Wiggum Loop[1], sebagai sindiran terhadap Tokenmaxxing yang kosong pikirannya tetapi gigih yang dihasilkannya
  [1] https://awesomeclaude.ai/ralph-wiggum
Hal seperti ini tampaknya berulang pada tahun-tahun awal adopsi teknologi besar
Saat booming big data awal 2010-an pun, para eksekutif membeli cluster Spark dan data lake terlebih dahulu tanpa use case analitik atau tata kelola yang jelas
“Hampir tidak pernah terdengar pemimpin perusahaan mengatakan akan membakar uang demi merasa senang”, benarkah?
Sekitar 4 tahun lalu, CEO kami beberapa kali menerbangkan konsultan untuk melakukan latihan team building. Kami tidak mampu mengganti server dalam siklus 3 tahunan, tetapi biaya konsultan itu dibayar tanpa masalah
Baru-baru ini, mereka juga memanggil konsultan branding, lalu menghabiskan ribuan dolar biaya AWS untuk me-rebrand semua foto. Kami beroperasi di pasar tertawan. Untuk menjual di pasar kami, langganan layanan kami wajib, dan kalau di luar pasar itu, orang bahkan tidak bisa berlangganan. Pada akhirnya, branding meningkatkan pendapatan sebesar 0
Di perusahaan tempat saya pernah bekerja dulu, salah satu hal pertama yang dilakukan CTO baru begitu masuk adalah membuat aturan penggantian nama server. Aturannya memakai nama kota-kota di seluruh dunia yang asing bagi karyawan yang berpusat di AS: server database memakai kota Swiss, server web Denmark, storage Finlandia. Nama yang tadinya memperlakukan server seperti kawanan ternak berubah menjadi nama hewan peliharaan, dan CTO itu bertahan sekitar 6 bulan
Dalam pengalaman saya, pimpinan perusahaan tidak sehemat yang dibayangkan tulisan ini
- Mengejutkan juga banyak orang yang naif soal perusahaan. Mereka tampak benar-benar percaya pada pepatah “kapitalisme itu efisien”
  Sulit membayangkan seseorang bekerja di lingkungan korporat tanpa pernah melihat contoh jelas pemborosan seperti ini. Konsultan yang dibayar berlebihan dan anggaran yang harus dihabiskan adalah contoh klasik
  Film Office Space keluar 27 tahun lalu, dan alurnya menyindir “konsultan efisiensi” bergaji berlebihan yang tugasnya hanya menyuruh manajemen memecat orang
- Supaya adil, para pemimpin biasanya tidak mengatakannya secara langsung begitu. Mereka hanya mengeluarkan omong kosong yang artinya “saya akan membakar uang karena ini membuat saya merasa senang”
  Lebih tepatnya, “karena ini membantu karier saya”

Tokenmaxxing Sudah Mati, Hidup Tokenmaxxing

Tokenmaxxing yang bermula dari konsumsi token tanpa makna

Kebijakan penggunaan tak terbatas pertama yang berakhir karena tekanan biaya

Dari kesalahan majemuk ke ketepatan majemuk

Persaingan anggaran token yang lebih dulu terlihat di bidang keamanan

Loop dan eksekusi agen jangka panjang

Model terbuka dan eksekusi berulang yang lebih hemat biaya

Perbedaan antara pengeluaran untuk pengembang dan pengeluaran untuk pipeline

Pabrik perangkat lunak dan pengeluaran token ekstrem

Bacaan terkait

1 komentar

Komentar Hacker News