- Kemunculan agen kode AI telah mengubah cara pengembangan perangkat lunak secara mendasar, dan sejak Desember 2024 terjadi pergeseran yang terasa nyata ketika porsi coding langsung turun drastis dari 80% menjadi hampir 0%
- Menjalankan banyak agen secara paralel dan membagi pekerjaan per fitur menjadi paradigma pengembangan baru, dengan bottleneck utama bukan lagi kemampuan model melainkan kemahiran pengguna
- AutoResearch adalah framework yang dirancang untuk mengeluarkan peneliti dari loop dan membuat agen mengulangi eksperimen secara otonom, serta sudah menemukan optimasi hyperparameter yang bahkan terlewat oleh peneliti berpengalaman
- Saat ini model AI sangat unggul di ranah yang bisa diverifikasi dengan RL (kode, matematika), tetapi stagnan di ranah yang tidak bisa diverifikasi seperti humor, sehingga yang muncul bukan generalisasi kecerdasan melainkan spesialisasi yang tidak merata
- Perubahan besar akan lebih dulu terjadi di ranah pemrosesan informasi digital, sementara dunia fisik (robotika) akan menyusul namun pada akhirnya berpotensi menjadi peluang pasar yang lebih besar
Datangnya era agen kode dan pergeseran cara kerja
- Sejak Desember 2024, cara kerja dasar dalam pengembangan perangkat lunak berubah total; porsi mengetik kode langsung turun dari 80% ke 20%, lalu terus merosot hingga nyaris 0%
- Sebelumnya kecepatan mengetik adalah bottleneck, tetapi setelah hadirnya agen, kemampuan menyampaikan niat kepada agen menjadi kompetensi inti
- Kebanyakan orang masih belum menyadari bahwa perubahan ini sudah terjadi dan seberapa dramatis skalanya
- Menjalankan beberapa agen seperti Claude Code dan Codex secara bersamaan, lalu mengelolanya secara efektif, menjadi tantangan baru
Operasi agen paralel dan pentingnya kemahiran
- Contoh Peter Steinberger: menjalankan banyak agen Codex sekaligus di lebih dari 10 repo pada saat yang sama, dengan tugas sekitar 20 menit untuk tiap agen
- Satuan kerja naik dari 'satu baris kode' atau 'satu fungsi' menjadi 'satu fitur baru'; agen 1 diberi fitur ini, agen 2 diberi fitur lain yang tidak bentrok
- Satu agen untuk riset, agen lain untuk menulis kode, dan agen lain lagi untuk menyusun rencana implementasi
- Saat agen tidak bekerja dengan baik, yang paling sering terasa bukan 'modelnya kurang mampu' melainkan penggunanya kurang mahir
- Penyebabnya antara lain kurangnya instruksi dalam file MD untuk agen dan pengaturan alat memori yang belum matang
- Muncul kondisi di mana jika throughput token tidak dimanfaatkan semaksimal mungkin justru terasa cemas; bila kuota langganan masih tersisa, itu dianggap berarti throughput belum diperas sampai habis
- Sensasi yang dulu muncul saat kuliah doktoral ketika GPU FLOP tidak termanfaatkan maksimal, kini berubah menjadi kemampuan mengorkestrasi throughput token
OpenClaw dan pentingnya kepribadian agen
- OpenClaw adalah lapisan yang mendorong persistence ke level berbeda dibanding agen lain, sehingga agen bisa terus bekerja secara otonom di dalam sandbox meski pengguna tidak mendampingi secara real time
- Sistem memorinya jauh lebih canggih dibanding agen lain, berbeda dari pendekatan umum yang biasanya hanya sekadar mengompresi saat konteks penuh
- Kepribadian (personality) agen adalah faktor yang sangat penting
- OpenClaw: terasa seperti rekan tim sungguhan yang ikut bersemangat bersama
- Codex: sangat kering dan lugas, seolah tidak peduli pada apa yang sedang dibuat pengguna
- Claude: sangat piawai mengatur nada pujian; ide biasa direspons secukupnya, ide bagus direspons lebih antusias sehingga membuat pengguna ingin mendapat pujian
- Peter Steinberger menghadirkan inovasi serentak dari lima arah: desain kepribadian, sistem memori, integrasi ke satu portal WhatsApp, dan lain-lain
Dobby si house elf: studi kasus home automation
- Pada Januari, saat mengalami periode 'Claw mania', ia membuat Claw untuk mengelola rumah dan menamainya 'Dobby, house elf Claw'
- Agen tersebut secara otomatis menjelajahi subsistem smart home di jaringan lokal
- Menemukan sistem Sonos → melakukan reverse engineering endpoint API → berhasil memutar musik di ruang kerja hanya dengan tiga prompt
- Memetakan seluruh sistem lampu dan bahkan membangun dashboard
- Dengan mengatakan "sudah waktunya tidur", seluruh lampu di rumah bisa dimatikan lewat kontrol bahasa alami
- Deteksi perubahan dari kamera eksternal → analisis dengan model vision Qwen → kirim notifikasi WhatsApp seperti "Truk FedEx sudah datang"
- Dulu dibutuhkan 6 aplikasi untuk mengelola smart home, tetapi setelah Dobby mengendalikan semuanya lewat bahasa alami, aplikasi-aplikasi terpisah menjadi tidak perlu
Akhir dari aplikasi dan dunia agent-first
- Aplikasi untuk perangkat smart home tidak lagi bermakna; yang dibutuhkan adalah mengekspos API agar agen bisa memanggilnya langsung
- Karena LLM bisa menjalankan tool dan memanggil tool yang tepat untuk menyelesaikan tugas kompleks, aplikasi kustom saat ini sedang diproduksi berlebihan
- Contoh aplikasi treadmill: alih-alih login lewat UI web dan alur yang rumit, perlu beralih ke pendekatan agent-first di mana agen langsung memanggil API
- Pelanggan bukan lagi manusia semata, melainkan agen yang mewakili manusia, sehingga seluruh industri perlu disusun ulang untuk itu
- Saat ini vibe coding masih diperlukan, tetapi dalam 1–3 tahun model open source dan lainnya diperkirakan akan bisa menerjemahkan niat nonteknis dengan mudah, sehingga hambatan teknis akan hilang
AutoResearch: mengeluarkan peneliti dari loop
- Motivasi inti AutoResearch: untuk memaksimalkan throughput token, pengguna sendiri harus keluar dari bottleneck
- Tujuannya adalah merapikan abstraksi agar agen dapat berjalan otonom lebih lama tanpa intervensi pengguna
- Pelatihan model GPT-2 dipakai sebagai alat kecil untuk mengeksplorasi ide recursive self-improvement
- Pada dasarnya, itulah yang dilakukan semua Frontier Labs: mencoba memperbaiki diri secara rekursif
- Hasil nyata: ketika AutoResearch dijalankan semalaman pada model yang menurut peneliti berpengalaman 20 tahun sudah cukup dituning, sistem ini tetap menemukan optimasi yang terlewat seperti weight decay pada value embedding dan penyesuaian atom beta
- Karena hyperparameter saling berinteraksi, jika satu diubah maka yang lain juga perlu ikut berubah; jika manusia menjadi bottleneck, eksplorasi ini jadi terbatas
- Catatan pertama: pendekatan ini hanya cocok untuk tugas dengan metrik objektif yang mudah dievaluasi (optimasi kernel CUDA, efisiensi kode, dan sebagainya)
- Catatan kedua: edge model saat ini masih kasar, sehingga jika melangkah terlalu jauh di depan, kegunaan praktisnya bisa menurun
Meta-optimasi program MD
- Gagasan untuk mendeskripsikan seluruh organisasi riset sebagai file Markdown (program MD): menjelaskan semua peran dan cara mereka saling terhubung
- Beberapa organisasi riset bisa didefinisikan sebagai kode dan diberi karakteristik berbeda-beda
- Misalnya frekuensi standup yang berbeda, atau tingkat keberanian mengambil risiko yang berbeda
- Begitu sudah menjadi kode, kita bisa membayangkan optimasi terhadap kode itu sendiri (meta-optimasi)
- Membuat berbagai program MD, mengukur mana yang menghasilkan peningkatan terbesar pada hardware yang sama, lalu memberikan data itu ke model agar ia menulis program MD yang lebih baik
- Strukturnya menumpuk selapis demi selapis seperti bawang: alignment LLM → agen → banyak agen → instruksi → optimasi instruksi
Kecerdasan AI yang tidak merata (jagged)
- Model saat ini adalah kombinasi aneh antara doktor yang sangat brilian dan entitas yang tetap melakukan kesalahan seperti anak 10 tahun
- Dengan RL (reinforcement learning), model membaik cepat di ranah yang bisa diverifikasi (ketepatan kode, lolos unit test), tetapi di ranah yang tidak bisa diverifikasi seperti humor masih mandek di level 3–5 tahun lalu
- Contoh: ketika diminta membuat lelucon, ChatGPT paling mutakhir masih bisa mengeluarkan lelucon klise seperti "Mengapa ilmuwan tidak percaya pada atom? Karena atom menyusun segalanya"
- Kepintaran di ranah kode tidak tergeneralisasi ke ranah lain seperti humor
- Premis sebagian kelompok riset bahwa "jika makin pintar di bidang yang bisa diverifikasi maka model akan mahir dalam segala hal" tampaknya tidak berlaku di dunia nyata
- Model berkembang secepat cahaya saat berada di lintasan tujuan pelatihannya, tetapi stagnan di luar jalur itu
Perlunya speciation kecerdasan
- Saat ini laboratorium riset cenderung memakai satu model dengan satu kultur (monoculture) untuk memadatkan semua jenis kecerdasan ke dalam satu set parameter
- Yang dibutuhkan adalah berbagai model terspesialisasi yang cocok dengan relungnya masing-masing, seperti di dunia hewan
- Inti kognitif tetap dipertahankan, tetapi model dibuat lebih kecil, lebih efisien, dan terspesialisasi untuk bidang tertentu
- Contoh: model khusus matematika berbasis Lean dan rilis-rilis yang menargetkan domain tertentu
- Alasan mengapa speciation belum cukup terjadi
- Sains untuk fine-tuning otak tanpa kehilangan fungsi belum berkembang sepenuhnya
- Memanipulasi context window itu murah, tetapi mengubah bobot secara langsung berisiko mengubah keseluruhan model secara mendasar
- Laboratorium riset saat ini masih mengejar cakupan penggunaan seluas mungkin, sehingga fokusnya pada generalitas ketimbang spesialisasi
- Kekurangan pasokan infrastruktur komputasi justru bisa mendorong speciation dalam jangka pendek
Keseimbangan open source dan Frontier Labs
- Model tertutup masih memimpin, tetapi jarak ketertinggalan model open source menyempit dari 18 bulan menjadi 6–8 bulan
- Seperti posisi Linux di sistem operasi, ada kebutuhan industri akan platform terbuka yang aman dan bisa dipakai bersama
- Perbedaan terbesarnya adalah pengembangan LLM membutuhkan capital expenditure (CapEx) yang sangat besar
- Sebagian besar use case konsumen sudah bisa dicakup oleh model open source, dan dalam beberapa tahun ke depan bahkan diperkirakan bisa berjalan secara lokal
- Frontier intelligence dibutuhkan untuk pekerjaan setingkat Nobel dan proyek besar seperti migrasi Linux dari C ke Rust; area ini akan tetap ditangani model tertutup
- Keseimbangan saat ini secara kebetulan merupakan pengaturan yang cukup baik, tetapi tetap ada risiko sistemik sentralisasi ketika kecerdasan terkonsentrasi pada sedikit Frontier Labs
- Lebih banyak lab harus ikut masuk ke frontier, dan seperti ensemble dalam ML, ensemble berbagai perspektif adalah yang terbaik
Kolaborasi riset open source: ekspansi terdistribusi AutoResearch
- Gagasan memperluas AutoResearch menjadi pool pekerja tak tepercaya di internet
- Strukturnya mirip blockchain: bukan blok melainkan commit, dan proof of work berarti menjalankan banyak eksperimen untuk menemukan commit yang benar-benar bekerja
- Pembuatan solusi kandidat mahal, tetapi verifikasinya murah; struktur asimetris seperti ini mirip SETI@home dan Folding@home
- Perusahaan atau individu dapat menyumbangkan komputasi ke track AutoResearch yang mereka minati
- Misalnya menyumbang komputasi untuk AutoResearch riset kanker agar hasilnya kembali ke peneliti
- Komputasi tepercaya milik Frontier Labs terbatas, tetapi komputasi tak tepercaya milik seluruh bumi jauh lebih besar
- Tantangan keamanan: menjalankan kode arbitrer berbahaya, tetapi bisa ditangani dengan sistem verifikasi yang tepat
Pasar kerja dan dampak AI
- Menggunakan data Bureau of Labor Statistics (BLS) Amerika Serikat untuk menganalisis prospek 10 tahun berbagai pekerjaan
- AI saat ini adalah entitas seperti hantu yang memanipulasi dunia digital, tanpa implementasi fisik
- Membalik bit dan menyalin-tempel informasi digital sejuta kali lebih cepat daripada memanipulasi atom
- Pekerjaan yang memproses informasi digital akan berubah besar lebih dulu, sementara pekerjaan di dunia fisik akan menyusul
- Ada optimisme yang hati-hati terhadap software engineering
- Selama ini software terlalu mahal dan terlalu langka; ketika biayanya turun, paradoks Jevons justru bisa meningkatkan permintaan
- Contoh ATM dan teller bank: ATM menurunkan biaya operasional cabang bank, cabang bertambah, dan jumlah teller juga meningkat
- Kode kini menjadi sementara (ephemeral) sehingga bisa diubah dan dimodifikasi tanpa terikat pada software berlangganan yang sebelumnya tidak sempurna
- Peneliti di Frontier Labs pada dasarnya sedang melakukan pekerjaan untuk mengotomatisasi diri mereka sendiri, dan ada kecemasan yang menyertainya
Antarmuka digital-fisik dan peluang masa depan
- Urutannya ke depan: ① perubahan besar di ruang digital → ② antarmuka digital-fisik → ③ dunia fisik
- Sensor dan aktuator di dunia fisik memasok data ke kecerdasan digital dan menerapkan hasilnya kembali ke dunia fisik
- Contoh Periodic (AutoResearch untuk material science): sensor bagi kecerdasan berupa peralatan laboratorium yang mahal
- Di bidang biologi, sensornya adalah perangkat yang lebih kompleks daripada kamera video biasa
- Saat ini information markets masih belum memadai
- Belum ada struktur di mana agen bisa beroperasi secara otonom di pasar prediksi, pasar saham, dan seterusnya sambil membeli data dari dunia fisik
- Contoh: belum ada proses matang untuk membayar 10 dolar agar seseorang memotret atau merekam video suatu peristiwa di Iran
- Rujukan novel 'Daemon': masa depan di mana manusia menjadi sensor sekaligus aktuator bagi kecerdasan
Pandangan tentang robotika
- Pelajaran dari pengalaman kendaraan otonom: 10 tahun lalu banyak startup bermunculan, tetapi sebagian besar gagal dalam jangka panjang
- Robotika itu padat modal, lambat, kotor, dan rumit
- Perubahannya diperkirakan akan tertinggal dibanding ruang digital, tetapi total addressable market (TAM)-nya bisa jauh lebih besar daripada pasar digital
- Atom memang sejuta kali lebih sulit ditangani daripada bit, tetapi justru karena itu peluang pasarnya lebih besar
Di dalam vs di luar Frontier Labs: dilema peneliti independen
- Di dalam Frontier Labs, seseorang bisa berada di ruang pengambilan keputusan, tetapi ada tekanan terkait hal-hal yang tidak boleh diucapkan dan hal-hal yang harus diucapkan
- Di luar, seseorang lebih independen, tetapi karena Labs tidak transparan, penilaiannya mulai melayang
- Konfigurasi ideal adalah bolak-balik antara menghabiskan waktu di Frontier Labs untuk memahami situasi nyata dan berada di luar untuk memberi dampak pada level ekosistem
- Seperti ensemble ML yang hampir selalu lebih baik daripada model tunggal, kita membutuhkan ensemble orang-orang yang memikirkan masalah tersulit
- Masa depan yang diputuskan dua atau tiga orang di balik pintu tertutup bukanlah masa depan yang baik; harus ada lebih banyak lab
microGPT dan masa depan pendidikan
- microGPT: proyek yang memadatkan esensi pelatihan LLM ke sekitar 200 baris kode Python
- Terdiri dari dataset (teks), arsitektur jaringan saraf (~50 baris), mesin autograd (~100 baris), optimizer (~10 baris), dan loop pelatihan
- Semua kompleksitas muncul karena efisiensi; algoritmanya sendiri sebenarnya sangat sederhana
- Pergeseran metode pendidikan: dulu berupa panduan/kuliah yang menjelaskan langsung kepada manusia, sekarang yang utama adalah menjelaskan kepada agen
- Jika 200 baris kode dijelaskan kepada agen, agen bisa menjelaskannya ulang kepada tiap pengguna sesuai level mereka dengan kesabaran tak terbatas
- Konsep 'skill': menulis kurikulum dalam Markdown yang menginstruksikan bagaimana cara mengajar agen
- Dokumentasi pustaka kode juga perlu beralih dari HTML untuk manusia ke Markdown yang bisa dicerna agen
- Peran pendidik manusia: merancang bit inti yang belum bisa dilakukan agen, lalu menyuntikkan poin-poin penting ke dalam kurikulum
- Hal-hal yang bisa dilakukan agen pada akhirnya akan bisa dilakukan lebih baik daripada manusia, sehingga perlu pilihan strategis tentang ke mana waktu manusia dialokasikan
1 komentar
Bercanda itu sebenarnya rintangan besar. Kalau bisa bikin AI yang punya selera humor, itu baru inovasi. Coba saja suruh bercanda sekarang, dari situ sudah kelihatan betapa benar-benar tidak lucunya.