Hal-hal yang Tidak Bisa Dilatih
(saranormous.substack.com)- Pada pertengahan 2026, pesimisme bernuansa "psikosis AI" menyebar di kalangan investor, dengan logika inti bahwa jika model menjadi lebih baik dalam segala hal, maka semua perusahaan yang dibangun di atasnya hanyalah pembungkus tipis yang akan terserap
- Devin, AI SWE pertama, saat 2024 hanya menyelesaikan 13% tugas benchmark standar, tetapi dalam satu setengah tahun agen terbaik sudah mencapai kisaran akhir 80%, sehingga model dengan cepat menggerus wilayah yang bisa diukur terlebih dahulu
- Apa yang bisa diukur menjadi sasaran pelatihan lalu jatuh menjadi komoditas, tetapi jawaban privat dengan biaya verifikasi tinggi tidak bisa dibaca dari leaderboard
- Nilai yang sesungguhnya berada di wilayah yang tidak bisa disentuh model, seperti lisensi, liability, dan penanggung jawab, sehingga bottleneck-nya bukan kecerdasan melainkan izin (permission) dan akuntabilitas (accountability)
- Semakin murah kecerdasan, semakin nilai berpindah ke sedikit posisi yang tak bisa dijangkau model, dan wilayah ‘tak dapat dilatih (untrainable)’ menjadi moat terakhir
Logika pesimisme investor
- Pada pertengahan 2026, pesimisme versi investor berarti tidak ada lagi yang layak didanai, dengan sentimen bahwa uang sebaiknya hanya dimasukkan ke Anthropic dan Nvidia lalu berhenti
- Logikanya: jika model menjadi lebih baik dalam segala hal, semua perusahaan yang dibangun di atasnya hanyalah pembungkus tipis (thin wrapper) yang menunggu untuk diserap, dan nilai yang bertahan hanya compute serta frontier weights
- Contoh yang paling sering dijadikan sandaran logika ini adalah bidang software
Pelajaran nyata dari software
- Devin saat diluncurkan pada 2024 sebagian besar diabaikan karena hanya menyelesaikan 13% tugas benchmark software standar, tetapi satu setengah tahun kemudian agen terbaik sudah mencapai akhir 80%-an dan menjalankan pekerjaan nyata di dalam Goldman Sachs dan U.S. Army
- Hampir semua orang menarik pelajaran keliru bahwa "model telah menelan software engineering", padahal engineering sejak dulu menolak untuk diukur, dan bagian yang paling mudah diukur bukan satu-satunya bagian yang penting
- Mert Demirer dari MIT dan rekan penulisnya mengkuantifikasi lebih dari 100 ribu developer: coding agent terbaru meningkatkan jumlah kode yang ditulis menjadi sekitar 180%, tetapi jumlah yang benar-benar dideploy hanya naik sekitar 30%
- Menulis kode memang menjadi lebih murah, tetapi sisanya tetap harus melewati manusia, dan justru bagian itulah yang penting
Yang bisa diukur akan menjadi sasaran pelatihan
- Benchmark adalah hal yang bisa diukur, dan apa yang bisa diukur bisa diserang lewat pelatihan, sehingga coding agent matang paling dulu
- compiler dan test suite bertindak sebagai verifikator gratis (free verifier), karena jawaban bisa memeriksa dirinya sendiri dan terus digiling sampai lolos
- Tetapi lolos tes tidak memberi tahu apakah perubahan itu adalah pilihan yang benar untuk codebase berusia 10 tahun
- Tiga alasan tak terdokumentasi mengapa sebuah modul ada, atau pipeline deployment yang dipertahankan oleh cron job yang tak seorang pun mau mengaku menulisnya, tidak bisa dibaca dari leaderboard
- Ketepatan sistem kompleks hanya bisa diketahui setelah dijalankan cukup lama di dunia nyata, dan model yang lebih pintar tidak membuat dunia berjalan lebih cepat
- Noam Brown, pelopor model reasoning di OpenAI, menyebut bahwa satu-satunya cara yang benar-benar pasti untuk mengevaluasi agen dalam horizon satu tahun mungkin adalah menjalankannya selama satu tahun
Hal-hal yang hanya bergerak secepat organisasi
- Menurut Gabe Pereyra, otomatisasi sejati bukan hanya soal model yang membaik, melainkan product·model·workflow·firm yang bergerak bersama, dan tiga di antaranya bergerak secepat organisasi
- Bagian yang tidak bisa disentuh benchmark adalah menggerakkan manusia: mengubah cara kerja partner yang skeptis, atau menjaga tim tetap utuh selama proses pembangunan ulang
- Saat merekrut CEO, kemampuan menangani orang dihargai setara dengan kemampuan analitis, dan model yang lebih pintar tidak mengubah bobot ini
- Semua perusahaan sudah menaruh frontier coding model di tangan seluruh engineer, tetapi tidak ada satu pun yang mengubah organisasi engineering (eng org) dengan kecepatan yang sama
- Adopsi selesai dalam satu kuartal, tetapi pembangunan ulang masih memakan waktu bertahun-tahun
Pekerjaan yang bisa dibaca sedang ditinggalkan
- Apa pun yang bisa masuk leaderboard pada akhirnya bisa diserang lewat pelatihan, sehingga semua pekerjaan yang bisa diukur sudah bergerak menuju komoditas, dan arah ini tidak akan berbalik
- Seperti analogi Matt MacInnis dari Rippling, token yang menjawab pertanyaan umum hampir tak bernilai karena model siapa pun bisa menjawabnya, tetapi token yang menalar atas data perusahaan jauh lebih bernilai
- Pekerjaan yang bisa dibaca sedang tergerus dari dua arah
- Dari bawah, tugas-tugasnya jenuh sehingga pembeli tidak lagi bertanya "model yang mana" melainkan "berapa biayanya", lalu jatuh ke open/distilled model termurah minggu itu
- Dari atas, lab sedang mendorong absorption frontier dengan menarik scaffolding yang dulu membungkus model — seperti retrieval, routing, tool use, dan reasoning policy — ke dalam weights
- Tekanan margin juga bekerja sebaliknya: agen umum harus siap untuk apa saja sehingga mahal, tetapi aplikasi terfokus bisa dituning agar menjalankan satu workflow dengan sebagian kecil biaya token itu, lalu mengambil selisih marginnya sendiri
2x2 dan ‘wilayah tak dapat dilatih’
- Untuk setiap pekerjaan, ada dua pertanyaan: apakah akurasinya bersifat privat dan mahal untuk dipastikan, dan apakah ia terkurung di dalam sistem yang tak bisa dimasuki
- Jika disilangkan dengan tingkat kejenuhan tugas, terbentuklah susunan 2x2
- Jenuh + jawaban publik = token komoditas, dikuasai open model
- Frontier + jawaban publik (posisi coding benchmark) = lab menang, karena jika evaluasi gratis maka kepemilikan tak berarti
- Sudut terakhir = pekerjaan frontier yang akurasinya hanya ada secara privat, dan inilah yang untrainable
- Ini bisa dilihat dari fakta bahwa, di inference cloud, perusahaan AI-native terdepan menghasilkan mayoritas besar token bukan dengan custom model
- Ketinggian tembok untuk masuk ke sudut terakhir berbeda-beda
- Toy codebase milik developer individu portabel dan terstandar, sehingga jalur masuknya pendek
- Sistem produksi milik bank bukan keduanya, dan menjadi 2% lebih pintar di SWE-Bench Verified tidak akan memberimu akses root
Bottleneck-nya bukan kecerdasan, melainkan izin dan tanggung jawab
- Model yang lebih baik pun tidak bisa mengubah private ground truth menjadi publik, tidak bisa memegang lisensi, menandatangani liability, memiliki file perusahaan, atau menjadi pihak yang digugat ketika jawabannya salah
- Bottleneck-nya bukan kecerdasan, melainkan permission dan accountability
- Pintu itu punya lock dan deadbolt
- lock adalah lingkungan: kegunaan AI di dalam sistem hanya bisa diverifikasi setelah ia memperoleh kepercayaan lewat review keamanan, integrasi, dan kontrak yang menaruh nama pada hasilnya
- deadbolt adalah pengguna: kebiasaan banyak dokter di AS membuka OpenEvidence setiap hari tidak bisa dibeli dengan compute sebesar apa pun
- Sekalipun model medis sempurna dilatih besok, tetap tidak ada jalan masuk ke kebiasaan dokter atau alur pengambilan keputusan di UCSF; kepercayaan dibangun pelan-pelan di atas relasi dan persetujuan pengguna
Hakikat pekerjaan itu sendiri
- Jalan agar aplikasi mendapat tempat di sudut untrainable bukanlah pekerjaan glamor, melainkan pekerjaan menata (arrange) realitas privat perusahaan agar bisa ditangani model, memberinya alat untuk bertindak, dan bersama pelanggan mengubah realitas tenaga kerjanya
- Perusahaan yang membawa terjemahan (translation) ini sulit ditiru, dan terjemahan itu tidak pernah selesai
- Integrasi dan maintenance berlanjut selama relasinya masih hidup, dan tim yang menang adalah tim yang menempatkan engineer dan alat yang spesifik domain di sisi pelanggan
-
Contoh: M&A di firma hukum besar
- Di firma hukum white-shoe papan atas, satu departemen M&A saja menangani sekitar 1.000 deal per tahun, dan tidak mungkin ratusan associate masing-masing mengunduh client file ke desktop lalu menyuruh agen umum menelitinya
- Alasannya banyak, termasuk kerahasiaan; dan sekalipun bisa, yang didapat hanya serpihan satu revisi dari satu orang pada satu waktu, sementara alur keseluruhan deal tetap tak terlihat
- Sinyal yang bermakna berada di level deal, dan deal punya bentuk
- M&A adalah NDA·term sheet·diligence·purchase agreement·ancillaries·closing checklist
- IP litigation adalah motion·discovery·prior art·motion tambahan
- Tiap practice area punya kekhasannya sendiri, dan baik pengacara maupun alatnya tidak saling kompatibel
- Masalah yang benar-benar diselesaikan firma hukum ada satu tingkat di atas itu: menjalankan semua practice area secara paralel, sambil top partner memutar ratusan perkara sekaligus, membawa masuk perkara baru, dan melatih para associate
- Transformasi firma seperti ini bukan tugas tunggal yang bisa dipakai sebagai eval; ia menuntut operator yang menjalankan sistem dengan cermat di tengah tujuan antara yang sangat ambigu, feedback yang tidak lengkap, rentang waktu yang sangat panjang, dan lingkungan yang tidak diam
- Di firma hukum white-shoe papan atas, satu departemen M&A saja menangani sekitar 1.000 deal per tahun, dan tidak mungkin ratusan associate masing-masing mengunduh client file ke desktop lalu menyuruh agen umum menelitinya
Nilai yang sulit dibaca juga sulit dijual
- Dari luar, bahkan perusahaan itu sendiri tidak tahu apakah AI akan mengubah operasinya, sehingga bisnis terkuat berhenti mencari pembuktian eksternal dan masuk ke dalam dengan memberi harga pada hasil (outcome)
- Sierra menagih ketika agen berhasil resolve masalah pelanggan, dan tidak menagih jika masalah dilempar ke manusia; harga itu sendiri menjadi evaluasi, dan ini bekerja karena Sierra memiliki definisi resolved
- Devin dari Cognition juga menawarkan hal yang sama di software dalam bentuk performance guarantee, pendekatan yang hanya mungkin untuk hasil di dalam sistem yang dipercaya
Bahkan token serving pun bukan komoditas murni
- Bahkan token serving, yang disebut komoditas murni, tidak bertindak seperti itu; perusahaan AI-native terbaik memusatkan serving ke satu atau dua tempat (Baseten atau Fireworks)
- Biaya per token memang menjadi komoditas sesuai dugaan, tetapi reliability di bawah traffic nyata dan akses terjamin ke compute yang langka tidak demikian
- Di mana melakukan serving adalah pilihan yang berbeda dari model mana yang dipakai, dan bagian inference yang benar-benar bertindak seperti komoditas hanyalah harga (price)
Sanggahan bahwa lab adalah pemasok
- Sanggahan umum mengatakan bahwa karena lab adalah pemasok, mereka bisa menjalankan produk sendiri di bawah biaya untuk mematikan pemain lain atau mencabut akses API lalu mengambil pasar secara langsung; inilah versi pesimisme yang sebenarnya
- Logika ini hanya berlaku jika lapisan model adalah permainan satu pemain, padahal jelas bukan
- Ia lebih mirip "deathmatch tiga setengah pemain" dengan masuknya pemain internasional yang tertinggal enam bulan, dan liga pembangunan kini 5 kali lebih besar daripada tahun lalu
- Pelanggan menginginkan persaingan antar pemasok, dan lab lebih menginginkan market share daripada membunuh satu aplikasi tertentu
- Ini bisa diamati di pasar tempat lab saling berkompetisi langsung; di consumer chat, model terbaik tidak pernah menang hanya karena lebih baik
- ChatGPT tetap memimpin selama bertahun-tahun dalam persaingan nyata, dan pangsa yang kini hilang berpindah ke Gemini bukan karena model yang lebih baik, melainkan karena Android dan Search
- Anthropic, yang menurut prediction market dan suasana internet dianggap punya model terbaik, nyaris bukan variabel dalam consumer chat dan justru membangun bisnis di enterprise dan coding
- Jika bahkan di aplikasi paling sentral model yang lebih baik tidak mampu merebut pengguna dari pesaing, maka ia juga tidak akan menembus catatan rumah sakit atau tanggung jawab bank hanya lewat integrasi
Hak untuk mendefinisikan apa itu jawaban yang baik
- Jika sesuatu tidak bisa dinilai dari luar, maka seseorang di dalam harus memutuskan apa itu jawaban yang baik, dan keputusan itulah keseluruhan permainan
- Jika keputusan seperti itu cukup menumpuk dan tercatat, ia menjadi benchmark; Harvey merilisnya untuk hukum, Sierra untuk voice agent
- Hak untuk mendefinisikan good di suatu bidang diperoleh dengan menjadi pihak yang memang dipakai bidang itu, dan mereka memperoleh hak itu lewat perjuangan adopsi yang nyata
- Evaluasi yang benar-benar menentukan uang bersifat privat dan spesifik per firm: apa yang diterima perusahaan ini sebagai pekerjaan yang baik untuk perkara seperti ini; kedalaman hukum melampaui tes publik apa pun, sehingga ini tak akan pernah selesai
- Ini bukan soal pengukuran melainkan judgment tentang apa yang benar dan apa yang baik; ia dicatat dan menjadi standar, dan foundation lab tidak bisa menulisnya meski sepintar apa pun
- Posisi itu hanya ada di dalam bidang tersebut; otoritas akhirnya menetap di tempat asalnya
- Benchmark hukum diputuskan oleh pengacara senior, definisi jawaban klinis yang aman oleh dokter, dan makna resolved oleh perusahaan yang sudah memiliki pelanggan
Pertahanan yang harus terus-menerus di-underwrite ulang
- Saat semakin banyak pekerjaan bisa diukur, absorption frontier akan terus naik, dan apa yang menjadi terukur akan dimakan
- Tanah yang untrainable menyusut di bawah kaki mereka yang berdiri di atasnya, sehingga tak ada ruang aman untuk berdiam; kita harus terus berpindah ke wilayah yang belum bisa dinilai dan terus-menerus me-underwrite ulang
- Jika pada tugas yang sempit kita melatih hingga frontier dengan data privat dan eval sendiri, kita bisa mengalahkan model umum di titik itu, dan model khusus tersebut menjadi bagian dari moat
- Sebaliknya, bersaing dengan model umum adalah perang modal yang kalah kepada pihak dengan compute terbesar, jebakan bagi perusahaan dengan akses dangkal dan tugas yang mudah dibaca
- Pada hari sebuah perusahaan memutuskan untuk bertahan hidup dengan melatih hingga melampaui frontier di wilayah umum, pemenangnya ditentukan oleh skala data center, dan akhirnya bukan juara independen melainkan penjualan kepada pihak yang kaya compute
Serangan yang lebih sulit: apa yang harus dibangun
- Semua pembahasan di atas adalah pertahanan; yang lebih sulit adalah serangan, yakni memilih sejak awal apa yang harus dibangun, dan ini ditemukan mungkin tiga kali setahun
- Model tidak membantu di sini; ia mengerjakan apa pun yang ditunjuk, tetapi tidak bisa memberi tahu apa yang layak ditunjuk, dan karena itu tidak bisa dibenchmark maka juga tidak bisa dilatih
- Inilah sebabnya pemain lama tidak bisa mengambil semuanya; hal berikutnya muncul dari seseorang yang menemukan kegunaan itu lebih cepat daripada orang lain
- Mungkin intent adalah input yang lebih langka daripada compute
Kesimpulan: nilai yang punya sejarah
- Pesimisme itu hanya setengah benar: lapisan pembungkus tipis memang sedang diserap, dan banyak hal yang hari ini tampak seperti perusahaan sebenarnya adalah pembungkus tipis
- Tetapi ia keliru tentang apa yang tersisa; mekanisme penyerapan jelas, namun tujuan akhirnya tidak jelas
- Kecerdasan akan terus makin murah, dan nilai meluncur ke sedikit posisi yang tak bisa disentuh model; posisi ini adalah untrainable — 'nilai yang punya sejarah (value with history)' yang dibangun dari waktu ke waktu seperti relasi, kepercayaan, dan judgment yang terakumulasi, dan tak bisa direplikasi lewat pelatihan
- Karena itu, jangan mencoba memiliki kecerdasan itu sendiri; masuklah ke wilayah di mana jawaban yang benar hanya ada di dalam bidang tersebut ("get inside one")
- Lakukan sendiri pekerjaan terjemahan (translation) yang tidak glamor untuk menata realitas privat perusahaan agar bisa ditangani model
- Yang terpenting adalah menjadi pihak yang mencatat apa itu good (jawaban yang baik) di bidang tersebut dan mendefinisikan standarnya, karena tempat itu tidak kosong: jika saya tidak melakukannya, orang lain pasti akan mengambilnya
- Skor benchmark yang paling banyak dikutip tahun ini bukan kebanggaan, melainkan peringatan: peta wilayah yang sebentar lagi menjadi tak bernilai, sekaligus pemberitahuan bagi mereka yang sebentar lagi kehilangan hak untuk mengatakan apa itu good
- Begitu sesuatu bisa diukur secara publik, itu berarti sinyal bahwa ia akan menjadi komoditas, dan penilaian publik bisa dikejar siapa saja, sehingga bahkan pihak yang menjadi nomor satu dengan skor itu pun kehilangan hak untuk mendefinisikan standar good
Belum ada komentar.