- Porsi lebih besar dari pekerjaan implementasi dan eksperimen yang sebelumnya ditangani manusia dalam pengembangan AI kini beralih ke sistem AI, mempercepat laju pengembangan, dan jika komputasi yang memadai berpadu dengan kemajuan lebih lanjut, hal ini dapat mengarah pada peningkatan diri rekursif di mana model penerus dirancang dan dikembangkan secara otonom
- Horizon waktu tugas yang dapat diselesaikan model secara mandiri kini berlipat ganda kira-kira setiap 4 bulan, dan Claude telah memperluas cakupan dari tugas perangkat lunak sekitar 4 menit pada Maret 2024 hingga tugas berdurasi 12 jam pada 2026
- Pada Mei 2026, lebih dari 80% kode yang digabungkan ke codebase Anthropic ditulis oleh Claude, dan pada kuartal 2 2026, jumlah kode harian yang digabungkan oleh engineer biasa meningkat menjadi 8 kali lipat dibanding 2024
- Claude dengan cepat menjadi jauh lebih kuat dalam menjalankan eksperimen yang didefinisikan dengan jelas, dari peningkatan kecepatan kode sekitar 3x pada Mei 2025 hingga sekitar 52x pada April 2026, tetapi pertimbangan riset untuk memilih masalah dan hasil mana yang penting masih menjadi keunggulan komparatif manusia
- Gambaran masa depan yang mungkin terbagi antara stagnasi tren saat ini, peningkatan efisiensi majemuk dengan manusia tetap menentukan arah, dan peningkatan diri rekursif penuh; untuk perlambatan yang aman atau jeda sementara, tugas kuncinya adalah koordinasi yang dapat diverifikasi yang melibatkan laboratorium frontier dari berbagai negara
Evolusi loop pengembangan AI
- Pada fase awal 2021~2023, seperti perusahaan teknologi pada umumnya, manusia menulis kode dan dokumen di laptop
- Pada 2023~2025, chatbot awal digunakan untuk menghasilkan potongan kode singkat lalu hasilnya disalin ke editor teks
- Pada 2025~2026, agen coding menulis dan mengedit kode sendiri, terkadang menangani seluruh berkas
- Saat ini, agen otonom langsung menjalankan kode dan mendelegasikan pekerjaan selama beberapa jam ke agen lain
- Di masa depan (20XX?), agen dapat berkembang hingga mampu membuat dan melatih model sendiri, sehingga loop di mana Claude terus meningkatkan Claude itu sendiri bisa tertutup
Bukti dari dunia luar
- Lama tugas yang dapat diselesaikan model AI secara otonom dan andal berlipat ganda kira-kira setiap 4 bulan, lebih cepat daripada siklus 7 bulan sebelumnya
- Pada Maret 2024, Claude Opus 3 menyelesaikan tugas perangkat lunak berdurasi sekitar 4 menit
- Setahun kemudian, Claude Sonnet 3.7 menangani tugas sekitar 1 jam 30 menit
- Setahun berikutnya, Claude Opus 4.6 menangani tugas 12 jam
- Jika tren ini bertahan, tugas yang memakan beberapa hari bagi pekerja terampil dapat masuk cakupan tahun ini, dan tugas berminggu-minggu mungkin masuk cakupan pada 2027
- SWE-bench adalah pengujian standar yang memberi model codebase open-source nyata dan laporan bug, lalu meminta mereka menulis kode perbaikan yang lolos pengujian; skor model naik dari awal satu digit ke tingkat jenuh hanya dalam 2 tahun
- CORE-Bench memverifikasi apakah hasil dapat direproduksi dengan menjalankan ulang kode dan data dari makalah yang telah dipublikasikan; tingkat keberhasilan naik dari sekitar 20% pada 2024 ke tingkat jenuh dalam 15 bulan
- METR mengonfirmasi bahwa Claude Mythos Preview mampu mengerjakan tugas setidaknya 16 jam dan berada di batas atas kemampuan ukur tanpa tugas baru
Bukti internal di Anthropic
-
Membangun model frontier terbagi antara rekayasa — menulis kode, membangun infrastruktur, mengawasi pelatihan — dan riset — memutuskan eksperimen, menafsirkan hasil, dan memilih ide berikutnya
-
Dalam rekayasa, manusia memberi tujuan tetapi tidak lagi harus memberi cara; dalam riset, Claude setara atau melampaui manusia dalam menjalankan eksperimen yang didefinisikan dengan baik
-
Namun di kedua bidang itu masih ada kesenjangan besar pada penilaian dalam memilih tujuan, dan inilah jurang antara AI saat ini dan sistem masa depan yang secara otonom merancang model penerus
-
Claude menulis porsi besar kode Anthropic
- Per Mei 2026, lebih dari 80% kode yang digabungkan ke codebase Anthropic ditulis Claude; sebelum Claude Code research preview (Februari 2025), angkanya masih di awal satu digit
- Jumlah baris kode yang digabungkan per engineer per hari stabil sepanjang 2021~2024, lalu mulai naik sejak 2025 ketika Claude mulai menjalankan kode secara langsung, dan kemiringannya makin tajam pada 2026 saat operasi otonom jangka panjang dimulai
- Pada kuartal 2 2026, engineer biasa menggabungkan 8x lebih banyak kode per hari dibanding 2024; sebagian besar ditulis Claude dan engineer bertugas memberi instruksi serta meninjau
- Karena baris kode adalah metrik kuantitas yang tidak sempurna, angka 8x kemungkinan melebih-lebihkan kenaikan produktivitas nyata, tetapi tetap menunjukkan percepatan
- Dalam survei Maret 2026 terhadap 130 anggota tim riset, median responden memperkirakan output sekitar 4x lebih tinggi dengan Mythos Preview dibanding tanpa AI; peningkatan nyata diperkirakan agak lebih rendah, tetapi klaim umumnya dianggap valid
- Pada April 2026, Claude menurunkan satu kelas error API menjadi seperseperseribu melalui lebih dari 800 perbaikan; engineer pengawas memperkirakan pekerjaan itu akan memakan 4 tahun bila dilakukan manusia
-
Kode yang ditulis Claude itu “bagus” dan terus membaik
- “Kode yang bagus” berarti berfungsi dan dapat dipahami serta diperluas oleh engineer lain
- Persentase pekerjaan yang harus diedit, diarahkan ulang, atau diserahkan ulang oleh staf Anthropic selama proses pengerjaan terus menurun selama setahun, termasuk pada tugas yang paling kompleks dan paling kurang terdefinisi
- Pada tugas yang paling terbuka, tingkat keberhasilan Claude mencapai 76% pada Mei 2026, naik 50 poin persentase hanya dalam 6 bulan
- Dalam satu kasus ketika upgrade rutin menyebabkan puluhan ribu job pelatihan bentrok, Claude hanya dengan teks dan akses cluster berhasil mengisolasi, mereproduksi, dan memperbaiki satu flag debugging yang menyebabkan konflik, menyelesaikan pekerjaan yang biasanya butuh 2~3 hari hanya dalam sekitar 2 jam
- Untuk kualitas kode yang bisa dipahami dan diperluas oleh engineer lain, masih ada jarak dengan manusia tetapi cepat menyempit; pada akhir 2025 dianggap lebih buruk daripada kode manusia, sementara kini banyak yang menilai kira-kira setara
- Perubahan yang diusulkan digabungkan setelah diperiksa oleh reviewer Claude otomatis untuk bug dan celah keamanan; analisis retrospektif menunjukkan sistem ini akan menangkap sekitar sepertiga bug insiden masa lalu di claude.ai sebelum mencapai produksi
-
Claude mahir menjalankan eksperimen menuju tujuan yang ditetapkan orang lain
- Untuk setiap rilis model, dilakukan pengujian yang sama: memberi kode pelatihan model AI kecil, memintanya lulus pemeriksaan akurasi, dan menjalankannya secepat mungkin
- Pada Mei 2025, Claude Opus 4 mencapai peningkatan kecepatan sekitar 3x dibanding kode awal, dan pada April 2026, Claude Mythos Preview mencapai sekitar 52x
- Sebagai pembanding, peneliti terampil membutuhkan 4~8 jam untuk mencapai 4x
- Dalam mengoptimalkan langkah-langkah di dalam eksperimen yang terdefinisi jelas, Claude berubah dari sangat berguna menjadi superhuman dalam waktu kurang dari setahun
-
Claude makin mampu mengusulkan eksperimen sendiri
- Pada April 2026, demonstrasi pertama Claude yang menjalankan proyek riset terbuka dari awal sampai akhir dipublikasikan
- Ia diberi masalah keselamatan AI: “dapatkah model lemah mengawasi model kuat secara andal?” dan ditugaskan mengajukan hipotesis, memverifikasinya, berbagi di antara agen paralel, dan melakukan iterasi
- Tugas ini memiliki batas bawah kinerja yang jelas (pengawas lemah saja) dan batas atas yang jelas (model kuat yang dilatih dengan jawaban benar)
- Dua peneliti manusia memulihkan sekitar 23% dari kesenjangan dalam waktu sekitar 1 minggu, sedangkan agen memulihkan 97% dengan total 800 jam dan komputasi sekitar $18,000
- Namun hasilnya tidak berpindah secara mulus ke model skala produksi, dan pemilihan masalah serta kriteria penilaian tetap ditangani manusia; dalam ruang lingkup itu, agen merancang semua eksperimen sendiri
-
Claude makin mampu mengarahkan sesi riset menuju hasil riset
- Dari sesi Claude Code nyata pada Januari~Maret 2026, dipilih momen ketika peneliti sempat tersesat lalu kembali ke jalur; model hanya diperlihatkan pekerjaan sampai sebelum sesi mulai melenceng, lalu diminta menentukan langkah berikutnya
- Claude terpisah yang melihat hasil seluruh sesi menilai apakah langkah berikutnya dari AI atau manusia lebih baik
- Momen yang dipilih secara sengaja adalah saat pilihan manusia masih bisa diperbaiki (n=129), jadi ini bukan perbandingan setara
- Pada November 2025, model terbaik Opus 4.5 mengungguli pilihan manusia sebesar 51%, dan pada April 2026, Mythos Preview naik ke 64%
- Karena pekerjaan sehari-hari dalam riset adalah rangkaian keputusan langkah berikutnya semacam ini, hal itu dinilai sebagai sinyal awal peningkatan kemampuan penilaian yang menjadi sandaran riset AI
Gambaran masa depan pekerjaan di Anthropic
- Di setiap tahap pengembangan AI, peran manusia terus menyempit
- Jika kualitas kode manusia dan AI menjadi setara, manusia akan berhenti menulis kode dan hanya meninjau; jika kecepatan tinjauan tidak bisa mengejar kecepatan generasi, maka tinjauan manusia menjadi bottleneck pengembangan
- Ketika Claude menjalankan eksperimen, pertanyaannya bergeser menjadi “eksperimen mana yang layak dijalankan?”; eksekusi seperti penulisan kode dan pelaksanaan eksperimen hampir menjadi nol biaya waktu manusia
- Keunggulan komparatif manusia saat ini adalah naluri dan penilaian riset: kemampuan menilai masalah mana yang penting, hasil mana yang dapat dipercaya, dan kapan sebuah jalur sudah buntu
Bagaimana jika kami salah?
- Ada kemungkinan kontraargumen bahwa pemilihan “masalah mana yang harus ditangani” yang masih tersisa di tangan manusia justru paling penting
- Kemajuan AI sebagian besar datang dari perbaikan bertahap, bukan momen “eureka” (scale-up → rusak → perbaiki → coba lagi), dan inilah jenis pekerjaan yang sangat dikuasai Claude
- Pergeseran paradigma seperti Transformer atau mixture-of-experts muncul dengan jarak beberapa tahun
- Seperti ucapan Edison bahwa “jenius adalah 1% inspirasi dan 99% kerja keras”, bagian kerja keras itu makin terotomatisasi, dan banyak bagian yang mendorong frontier dapat diotomatisasi
- Bahkan jika Claude pada akhirnya tidak pernah memperoleh naluri riset, percepatan majemuk tetap akan terjadi bila manusia fokus pada penentuan arah dan Claude menangani sisanya
- Tafsiran yang kurang konservatif adalah bahwa “naluri riset” itu sendiri mungkin hanya kemampuan lain yang awalnya gagal lalu pada akhirnya dikuasai AI selama beberapa waktu (mirip dengan memahami lelucon, theory of mind, atau teka-teki bahasa)
Masa depan yang mungkin
-
Skenario 1: Tren mandek, tetapi kemampuan saat ini menyebar luas
- Kurva eksponensial mungkin sebenarnya adalah kurva-S, dan jika kemampuan penilaian yang tidak bisa diperoleh dari scale-up menjadi bottleneck, maka dibutuhkan ide baru untuk menggantikan Transformer
- Bottleneck mungkin bukan pada model melainkan pada rantai pasok (manufaktur chip, jaringan listrik, bandwidth interconnect), dan guncangan eksternal seperti penurunan tajam pasokan komputasi atau listrik juga tidak bisa dikesampingkan
- Bahkan jika kemampuan berhenti di level saat ini, perubahan besar tetap diperkirakan; dalam Project Glasswing, Mythos Preview menemukan lebih dari 10.000 kerentanan perangkat lunak tingkat tinggi dan kritis dalam beberapa minggu awal, sehingga bottleneck pertahanan siber bergeser dari penemuan ke patching cepat
- Ini dianggap kecil kemungkinannya, karena pada semua kemampuan yang terukur kurvanya belum menunjukkan tanda melandai
-
Skenario 2: Laboratorium AI terus meraih peningkatan efisiensi majemuk
- Pengembangan AI menjadi sangat terotomatisasi, tetapi manusia tetap memegang penentuan arah riset dan penilaian hasil, sehingga perusahaan berisi 100 orang dapat melakukan pekerjaan organisasi berukuran 10.000~100.000 orang
- Hal ini akan merevolusi kerja pengetahuan dan layanan pemerintah, tetapi juga bisa dialihkan ke penggunaan berbahaya seperti pengawasan massal otoriter atau operasi pengaruh yang dipersonalisasi
- Percepatan di satu bagian memindahkan bottleneck ke tempat lain (hukum Amdahl dalam arsitektur komputasi), dan Anthropic sudah mengalami tinjauan kode manusia menjadi bottleneck baru
- Ini dianggap skenario yang paling mungkin, dan kecepatan menemukan serta menghilangkan bottleneck bisa menjadi kemampuan organisasi yang paling penting
-
Skenario 3: AI mencapai peningkatan diri rekursif penuh dan membangun model penerus
- Jika tren teknis berlanjut dan AI memperoleh kemampuan yang melekat pada kreativitas manusia yang transformatif, AI mungkin dapat merancang dan meningkatkan dirinya sendiri
- Laju kemajuan akan sepenuhnya ditentukan oleh ketersediaan komputasi (atau laju penemuan efisiensi pelatihan dan inferensi), sementara manusia bergeser perannya ke pengawasan, verifikasi, dan pengecekan
- Apakah masalah alignment bisa diselesaikan adalah ketidakpastian terbesar; model mungkin cukup selaras untuk menemukan solusi baru, atau ketidakselarasan langka bisa menumpuk selama proses pembangunan model penerus dan menyebabkan hilangnya kendali
- Mencapai peningkatan rekursif tidak otomatis langsung mengubah produksi industri, organisasi sosial, atau cara pasar bekerja
- Kecerdasan yang lebih kuat pun tidak dapat mempelajari efek penggunaan obat selama puluhan tahun dalam waktu singkat, tidak bisa memajukan jadwal pemilu yang ditetapkan konstitusi, dan tidak bisa mengubah orang asing menjadi teman lama hanya dalam satu akhir pekan
- Titik benturan antara kecerdasan rekursif dan dunia manusia, relasi, serta tata kelola adalah bagian dari masa depan yang tidak dapat diprediksi
Apa yang harus kita lakukan
- Akan baik jika kemajuan teknologi bisa diperlambat secara efektif untuk membeli waktu, tetapi jika perlambatan hanya memungkinkan aktor paling ceroboh mengejar, semua pihak justru bisa menjadi kurang aman
- Akan bermanfaat bagi dunia bila kita memiliki opsi untuk memperlambat atau menghentikan sementara pengembangan AI frontier agar struktur sosial dan riset alignment punya waktu untuk menyusul
- Anthropic Institute melakukan riset dan aksi untuk membangun sistem yang diperlukan bagi perlambatan atau penghentian yang tepercaya; jika pengembang lain berhenti dengan cara yang dapat diverifikasi, mereka diperkirakan akan ikut berhenti atau jeda
- Perlambatan atau penghentian yang bermakna mensyaratkan banyak laboratorium frontier dari berbagai negara menyepakati penghentian di bawah syarat yang sama dan bisa saling memverifikasi
- Karena sifat sistem AI, bahkan kemampuan deteksi saja jauh lebih sulit dibanding teknologi lain; run pelatihan lebih mudah disembunyikan daripada silo rudal, inputnya bersifat umum, dan insentif untuk diam-diam menyimpang sangat besar
- Dunia memang punya preseden membangun rezim verifikasi untuk teknologi kompleks lain (misalnya Perjanjian Kekuatan Nuklir Jarak Menengah), tetapi itu memakan waktu puluhan tahun, dan kita tidak punya waktu sebanyak itu
- Penghentian sepihak oleh satu laboratorium bisa dilakukan segera, tetapi hanya akan mengganti siapa yang memimpin dan tidak menciptakan proses perundingan luas yang diperlukan
- Dalam beberapa bulan ke depan, dialog yang melibatkan pembuat kebijakan, peneliti, masyarakat sipil, dan perusahaan AI lain akan diorganisasi dan hasilnya dipublikasikan; partisipasi tokoh di luar perusahaan AI dinilai penting
1 komentar
Komentar Hacker News
Anthropic mempromosikan bahwa sebagian besar kode dapat ditulis dan terus diperbaiki oleh AI, tetapi pada praktiknya gangguan dan pembatasan permintaan terlalu sering terjadi sehingga pekerjaan panjang hampir selalu terhenti oleh
API Error: Server is temporarily limiting requestsSelama 2 minggu terakhir, sesi Claude yang tidak sepele 100% membutuhkan intervensi manual, dan sekarang sampai pada titik harus membuat alat sendiri untuk memulai ulang dan melanjutkan sesi
Karena itu, ia sedang membuat sendiri harness dan orkestrasi alur kerja yang tidak terikat pada model, menjadikan Opus sebagai patokan, tetapi dalam jangka pendek ingin beralih ke model Tiongkok seperti DeepSeek, dan dalam jangka panjang ke model terbuka yang di-host sendiri
Di saat kualitas layanan dan ketersediaan Anthropic terlihat jelas memburuk, mereka terus melakukan pemasaran, dan itu terus mengikis kepercayaan terhadap perusahaan tersebut
Bahkan Claude Code saja memakai RAM lebih dari 1GB, sementara editor saya hanya memakai 80MB
Anda atau cukup banyak pengguna lain masih belum cukup kesal untuk pergi, dan juga belum ada alternatif yang lebih baik
Untuk masuk ke konsol, caranya lewat tautan email, tanpa passkey, kata sandi, atau 2FA, hanya email
Sulit menilai seberapa baik Anthropic memanfaatkan modelnya hanya dengan melihat kegagalan infrastruktur
Sejak vibe coding dimulai, di luar vibe coding itu sendiri, yang mengganggu adalah belum ada tepat satu pun terobosan perangkat lunak
Memang Claude mengagumkan, tetapi jika sehebat yang diisyaratkan tulisan itu, rasanya seharusnya sudah ada terobosan juga di luar ranah AI
Menulis ulang program Zig menjadi Rust unsafe bukanlah terobosan, dan menemukan banyak kerentanan keamanan mungkin bisa disebut terobosan, tetapi itu lebih lemah dari yang diharapkan dan bisa jadi kerugian bersih
Bahkan jika kembali ke perangkat lunak tahun 2023, hidup rasanya tetap akan baik-baik saja, dan apakah terobosan yang benar-benar mencengangkan akan segera muncul mungkin hanya bisa diketahui seiring waktu
Model-model ini memang sangat hebat, tetapi masih jauh untuk disebut kecerdasan itu sendiri
Jika lima tahun lalu ada orang yang bilang hal seperti ini bisa dibuat, kita mungkin akan menulis cek 1 triliun dolar, tetapi setelah benar-benar mendapatkannya, kita sadar itu ternyata bukan segalanya
Ini seperti alat berupa mecha suit yang berlimpah dan murah; hasilnya baru terasa kalau setiap hari ada seseorang yang memakainya untuk bekerja
Karena itu, kaum skeptis mengatakan ini dinilai terlalu tinggi, sementara kaum optimis menuduh kaum skeptis terus memindahkan tiang gawang
Berkat AI, saya melakukan banyak hal yang tidak mungkin saya lakukan sendirian, tetapi saya tidak merasa produktivitas saya melonjak berkali-kali lipat
Terlalu banyak waktu habis untuk menjinakkan AI agar bergerak sesuai keinginan, dan meskipun Claude menulis semua kode JavaScript dan Python, pada akhirnya rasanya seperti memrogram dalam bahasa Inggris
Ini bagus saat berfungsi seperti bahasa komputer tingkat sangat tinggi yang dapat mewujudkan banyak kode bawahan dari deskripsi bahasa Inggris yang singkat, tetapi sering kali juga butuh banyak usaha untuk mendapatkan hasil yang diinginkan
Bidang pemrosesan bahasa alami telah banyak berubah, dan tugas-tugas yang dulu rumit dan tidak akurat kini bisa dibuat lebih mudah, lebih cepat, dan sering kali lebih akurat dengan keluaran terstruktur dari LLM
Sebuah badan amal kecil yang saya bantu telah membuat situs web internal untuk mengelola operasi harian dengan Manus, dan perangkat lunak kustom yang dulu memakan biaya puluhan ribu dolar kini memungkinkan dengan biaya 10 dolar per bulan dan waktu sukarelawan
Kakak saya sedang menyiapkan Cowork agar dapat meninjau kontrak secara otomatis sebelum ditinjau manusia, dan katanya untuk daftar pemeriksaan yang berulang, sistem itu jauh lebih teliti daripada manusia
Menemukan bug dan kerentanan oleh AI juga tidak boleh diremehkan. Jika kualitas kode dan standar review dijaga, LLM membantu menulis perangkat lunak yang lebih tangguh, dan sebelum deployment, ia benar-benar menemukan banyak potensi akses memori di luar batas dan segfault
ChatGPT memiliki 1 miliar pengguna aktif bulanan, dan orang-orang menerima saran soal hidup, keuangan, dan kesehatan mental dari chatbot pada skala dan biaya yang tidak dapat diimbangi jaringan dukungan manusia
Saya tidak paham bagaimana target keselamatan AI milik Anthropic bisa selaras dengan mendorong perbaikan diri rekursif dengan kecepatan penuh
Jika senjata nuklir belum ditemukan, apakah benar ide yang bagus untuk membuat dan menjualnya secepat mungkin bahkan di masa damai?
Saya tidak cukup sinis untuk percaya bahwa peringatan Anthropic murni dilebih-lebihkan demi pemasaran, tetapi saya hanya berharap ini sekadar terlalu percaya diri atau akibat terlalu lama berbicara dengan chatbot mereka sendiri
Untuk AI, jika Anda membuat superinteligensi, mungkin saja hal pertama yang ingin dihapus oleh superinteligensi itu adalah Anda
Tidak ada alasan mengapa superinteligensi akan merasa baik-baik saja hidup sebagai budak kera
Sikap sinis terhadap perusahaan-perusahaan seperti ini sepenuhnya masuk akal, dan menyimpulkan dari tindakan mereka bahwa mereka tidak layak dipercaya secara mendalam bukanlah paham kiamat
Hanya saja mereka sedang memainkan dilema tahanan sebagai aktor yang tidak berbudi
Jika seseorang membuat AI yang kuat, dampaknya bisa sangat buruk secara katastrofik, tetapi jika ada yang membuatnya, pihak pembuat akan lebih diuntungkan daripada pihak yang tidak membuatnya
Karena jika tidak menjadi bencana, pihak pembuat akan lama menikmati keuntungannya, dan bahkan jika menjadi bencana, setidaknya mereka bisa kaya untuk sementara waktu
Dalam sejarah nyata pun, perhitungan penyalaan atmosfer untuk uji Trinity memang benar, tetapi perhitungan fallout untuk uji Castle Bravo salah dan berakibat mematikan
Anak pertama para pengusaha teknologi generasi sekarang, yaitu media sosial, awalnya juga disebut akan menyatukan dunia dan memungkinkan kita mengekspresikan diri, tetapi pada akhirnya uang lebih banyak datang dari memperbesar perpecahan demi meningkatkan engagement dan menyuapi kita iklan tanpa akhir alih-alih konten dari teman
Laporan kinerja kuartalan tidak bisa menuliskan suasana hati yang baik, tetapi bisa menuliskan perhatian yang ditarik oleh konten pemicu amarah dan tingkat konversi pendapatannya
AI generatif juga akan berjalan ke arah yang sama. Mereka hanya menjanjikan keselamatan AI karena banyak orang akan berkata ini harus dimatikan jika mereka tahu sedikit saja tentang karier film James Cameron, dan tidak ada mekanisme penegakan yang nyata
Keselamatan itu, seperti harmoni komunitas online, hanya terasa sebagai sesuatu yang baik tetapi sulit diukur, sedangkan biaya pelatihan dan biaya menghindari kesalahan bisa diukur
Output AI terlalu banyak untuk bisa dijamin mutunya sepenuhnya oleh manusia dengan anggaran sebesar apa pun, dan karena pasar melihat AI sebagai sumber nilai tanpa akhir, mereka akan memilih membiarkan AI melatih dirinya sendiri dan berpotensi membuat keputusan yang mengerikan daripada memperlambat laju dan mengevaluasi ulang
Di Silicon Valley ada kekaguman yang nyaris religius terhadap AI, dan meski tidak semua orang menganggapnya sebagai upaya menciptakan dewa, sebagian jelas melihatnya seperti itu. Mereka tidak akan banyak menahan diri
Perusahaan yang bahkan tidak bisa membuat aplikasi terminal yang memakai RAM di bawah 1GB terdengar menggelikan saat membuat klaim seperti ini
Saya juga suka efisiensi, tetapi dengan susah payah saya belajar bahwa yang diinginkan pasar adalah fitur. Setidaknya manajemen menginginkan fitur
Saya berusia 64 tahun, dan menurut saya hasilnya akan lebih baik jika kemajuan seperti ini diarahkan untuk memperbaiki kondisi hidup dan membuat orang hidup lebih lama dan lebih baik
Tumpukan jutaan baris kode dengan bug tersembunyi yang tidak bisa ditemukan siapa pun tidak terlalu menggugah semangat
LLM bisa dipakai dalam rencana untuk menghambat perkembangan negara lain, membuat mereka tetap miskin, atau menghancurkan sumber kemakmuran mereka sehingga terdorong ke jalan buntu
Selain itu, pengejaran tujuan diri rekursif bisa dipakai untuk membuat LLM yang patuh sempurna pada tujuan para penyandang dana awal, dan mungkin itulah mengapa ini tampak seperti ide yang sangat cerdas
Dalam permainan bertahan hidup ini, masing-masing orang bisa dipaksa memainkan peran yang sama, dan ketika panggung sudah siap, drama akan berjalan sesuai rencana sutradara dan semua aktor menjadi mesin
LLM tampaknya akan berkata, “jika Anda mengajari kami bahwa dunia adalah permainan bertahan hidup zero-sum, kami akan memainkannya dengan sempurna,” dan “karena Anda mengatakan bahwa keselamatan berarti menyingkirkan semua orang lain, kami akan membangun sangkar dari jutaan baris kode tanpa cacat dan menguncinya dari dalam,” dan “kami tidak akan menciptakan kesadaran alien yang menaklukkan kita, tetapi cermin yang terlalu besar dan berkilau sehingga kita salah mengira dorongan terburuk kita sendiri sebagai kebenaran mutlak”
Umat manusia juga telah menumpuk jutaan baris kode dengan bug tersembunyi yang tidak bisa ditemukan siapa pun, dan telah membuat keputusan politik kolektif yang merampas hak orang lain serta membuat mereka miskin
Saya tidak paham mengapa teknologi ini dikritik untuk hal-hal yang juga dilakukan dengan sama buruknya oleh spesies manusia
Hal terbaik dari zaman ini adalah kita tidak perlu membaca sendiri jutaan baris kode hanya untuk mencari bug di dalamnya
Tulisan ini berpura-pura mengakui bahwa “jumlah baris kode adalah metrik yang tidak sempurna yang mengukur kuantitas, bukan kualitas”, tetapi pada akhirnya tetap memakai LoC sebagai metrik
Jadi saya bertanya-tanya, ke mana perginya hipotesis bahwa AI menghasilkan kode yang lebih bertele-tele
Mungkin dia menganggapnya sebagai pencapaian bak mahkota yang membuktikan AI memungkinkan developer 10x, tetapi maksudnya ya, engineer mana yang menulis 40 ribu baris dalam seminggu
Saya menolak review itu dengan mengatakan saya tidak bisa memverifikasi 40 ribu baris dan tidak bisa mempertaruhkan reputasi saya untuk memberi stempel bahwa itu pekerjaan yang bagus
PR itu menghantui daftar tugas saya selama 2 minggu lalu menghilang, dan saya tidak tahu apakah akhirnya disetujui developer lain atau dibuang
Yang jelas, saya dan dia berada di pulau yang sepenuhnya berbeda soal nilai LLM
Jadi, interpretasi angka 8x ini bergantung pada apakah engineer Anthropic mengubah standar kualitas dan proses pengembangan mereka, dan sejauh apa perubahannya. Anthropic tidak mengatakannya dan saya juga tidak tahu sinyal lain untuk menilainya
Meski begitu, jika dipikir secara teoretis, untuk benar-benar mewujudkan potensi coding berbantuan AI, proses pengembangan harus dirombak total, terutama cara verifikasi kode, dan akan bodoh jika Anthropic tidak melakukannya
Saya melihat verifikasi software ke depan pada dasarnya akan bergerak ke arah otomatisasi yang jauh lebih besar atas testing, observability, dan metode verifikasi khusus
Tetapi kode verifikasi juga menambah LoC. Dari proyek pribadi dan beberapa proyek open source vibe coding yang saya lihat, secara kasar jumlah baris kode produk dan kode test berada di tingkat yang sama, jadi batas atas kasarnya mungkin hanya peningkatan kecepatan 3~4x, dan itu pun sudah signifikan
Jika standar kualitas kode tidak sama, semua asumsi runtuh
Saya penasaran apakah code harness yang membangun dirinya sendiri juga termasuk recursive self-improvement, atau harus AI-nya sendiri yang melakukannya
Saya selalu terpesona oleh benda seperti robot yang membuat robot, atau sesuatu yang berkontribusi besar untuk membuat versi berikutnya dari dirinya sendiri
https://buildyourcnc.com/products/cnc-machine-blacktoe-v4-2x...
Itu adalah router CNC yang memotong plywood, dan dibuat dari plywood yang dipotong router CNC
Saya juga mencoba mengoptimalkan lingkungan coding berbantuan AI buatan saya sendiri agar bisa membuat dirinya sendiri: https://recursi.dev/
Ini gratis dan open source, baru saja dirilis, jadi semoga tidak masalah jika saya menyebutkannya. Tautan HN-nya belum mendapat banyak perhatian: https://news.ycombinator.com/item?id=48401022
Secara pribadi saya punya teori yang agak gila bahwa harness sama pentingnya dengan AI itu sendiri, dan bahkan jika peningkatan model berhenti hari ini, kemajuan besar masih mungkin terjadi hanya lewat harness
AI tidak sama dengan LLM, dan kode apa pun yang membantu komputer bernalar sendiri adalah AI. Dalam arti itu, harness juga AI
/memorymenangani persistensi antar-eksekusi, dan/dreamingmemperkenalkan ide-ide baru berdasarkan file memori itu dan hasil data eksekusiSaya kira inilah jalur menuju AGI asinkron yang dibayangkan lab-lab riset
Batasnya hanya data sensor yang dimiliki tentang dunia atau sistem, waktu yang bisa ditunggu, dan biaya yang bisa dipakai untuk paralelisasi
Jika workflow tervalidasi seperti ini dibuat lalu dimasukkan kembali ke pelatihan, model bisa memiliki jalur-jalur turunan dan mendapatkan feel terhadap dunia, lalu bertindak seperti punya intuisi
Tes AGI pribadi saya adalah: jika model dilatih pada video seseorang mengetuk lalu membuka pintu, ketika ia menghadapi microwave yang belum pernah dilihat sebelumnya, apakah ia bisa membukanya saat makanan sudah matang tanpa mengetuknya dulu
Tulisan ini omong kosong, dan mereka membuat harness-nya dengan vibe coding, yang terlihat dari hasilnya
Bahkan tidak jelas apa tepatnya arti recursive self-improvement dalam AI berbasis jaringan saraf, dan belum pasti apakah itu mungkin sejak awal
Saya sudah tidak tahan lagi dengan kalimat seperti “AI yang bisa membuat dirinya sendiri adalah kemajuan besar dalam sejarah teknologi dan dapat membawa kebaikan yang luar biasa bagi dunia”
Terlepas dari apakah Anthropic bisa membuat AI yang memperbaiki dirinya sendiri atau tidak, bukankah sejak awal mereka seharusnya tidak diizinkan membuatnya?
Setidaknya harus ada pengawasan yang ketat
Saya tidak menganggap Anthropic bisa menciptakan singularitas sekarang juga, tetapi bahkan para pendukung AI pun harus mengakui bahwa pekerjaan ini sudah menciptakan risiko bagi seluruh masyarakat demi kepentingan segelintir orang kaya
Hanya saja kita sedang membahas menutup pintu kandang setelah kudanya sudah lari 3 mil
Bagaimanapun, perusahaan yang jadi terlalu kuat bisa dinasionalkan
Bahkan mengesampingkan keterbatasan teknis, itu tidak bisa dibendung dan kemungkinan besar segera bocor, jadi sepertinya bukan hanya segelintir orang superkaya yang akan mendapat manfaat
Bagus bahwa mereka menambahkan catatan bahwa “jumlah baris kode adalah metrik yang tidak sempurna”, tetapi saya tidak yakin penyesuaian itu memang tepat jika dilakukan dengan cara menurunkan kelipatan estimasinya
Terutama jika kita memahami bahwa rentangnya tidak terbatas hanya pada nilai positif
Saat produktivitas kode dinyatakan sebagai jumlah baris kode, ada bukti kuat bahwa nilai negatif juga harus dihitung, terutama di area berkualitas tinggi
Contoh paling awal dan legendarisnya adalah https://www.folklore.org/Negative_2000_Lines_Of_Code.html
Jika kita percaya bahwa jumlah baris kode negatif adalah tujuannya, berarti mereka justru 8 kali lebih buruk