Complexity Ratchet pada AI Agent: Mengapa Cakupan Pengujian 90% Diperlukan

(x.com/garrytan)

2 poin oleh ragingwind 4 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Complexity Ratchet di era coding AI - ringkasan esai Garry Tan

Ini adalah tulisan yang merangkum esai panjang yang dibagikan Garry Tan (CEO Y Combinator) di X tentang pengalamannya selama setahun terakhir membangun dua proyek open source bersama AI agent (Claude Code, Codex, dan lain-lain). Ia mengatakan bahwa AI menulis sebagian besar dari sekitar 970 ribu baris kode dan 665 file pengujian, sambil menjalankan 15 sesi agent secara bersamaan. Melalui proses ini, ia berpendapat bahwa dalil lama dalam software engineering bahwa "kecepatan dan kualitas harus dipilih salah satu" telah runtuh, dan ia mengajukan konsep Complexity Ratchet sebagai mekanisme intinya.

Konsep inti

Ratchet adalah metafora untuk mekanisme roda gigi yang hanya bergerak ke satu arah, yang berarti struktur yang membuat kualitas codebase hanya bisa maju tanpa mundur.
Tiga akumulasi Dalam setiap sesi coding dengan agent, tiga hal ditambahkan ke codebase: pengujian (apa yang benar), dokumentasi (mengapa keputusan itu diambil), dan hasil evaluasi (baseline kualitas).
Pemanfaatan context window Karena AI agent pada sesi berikutnya membaca ketiganya sebelum bekerja, mereka menjadi tidak bisa merusak pengujian, mengabaikan dokumentasi, atau menurunkan skor evaluasi.

Perbedaan dari pendekatan lama

Perubahan model error Selama 50 tahun terakhir, software engineering membangun proses yang kompleks seperti code review, QA, dan staging dengan asumsi bahwa "error itu fatal sehingga harus dicegah", tetapi kini sebagian besar error bisa didiagnosis dan diperbaiki agent pada giliran berikutnya.
Perluasan batas kompleksitas Batas atas kompleksitas sistem meluas dari "jumlah yang bisa dipahami satu tim dalam kepala mereka" menjadi "satu orang dan agent-agent yang memuat seluruh codebase ke dalam konteks".
Keabadian institutional memory Manusia bisa pergi karena resign atau burnout, tetapi pengetahuan yang tersisa dalam pengujian dan dokumentasi dapat dipanggil kembali oleh model mana pun, kapan pun.

Makna cakupan pengujian 90%

Kurva kualitas nonlinier Menurut studi Capers Jones atas lebih dari 10 ribu proyek, pada cakupan di bawah 70% tingkat penghapusan defect hanya 65~75%, tetapi pada 85~95% melonjak menjadi 92~97%, dengan adanya "titik lutut" pada kurva itu.
Preseden dari industri penerbangan Standar software penerbangan DO-178C mewajibkan cakupan MC/DC untuk sistem Level A (fatal), dengan tujuan mencapai tingkat penghapusan defect di atas 99%.
AI meruntuhkan hambatan biaya Mengisi 20% cakupan terakhir dulu membosankan dan mahal bagi manusia, tetapi agent tidak mengenal lelah sehingga bisa terus menulis pengujian edge case bahkan di dini hari.

Contoh nyata yang diajukan penulis

Peningkatan akurasi ekstraksi di GBrain Dalam lebih dari 100 ribu ekstraksi keyakinan, masalah salah mengenali "siapa yang membuat klaim itu" yang terjadi 35% dari waktu berhasil dikunci dengan 17 pengujian, sehingga tidak ada versi berikutnya yang bisa turun di bawah titik itu.
Pengujian TTY di Superpowers AI agent yang melewati review interaktif diawasi dan diblokir langsung menggunakan fitur pseudo-terminal milik Bun, sehingga kebutuhan yang tidak konvensional seperti "apakah AI benar-benar melakukan percakapan" juga dibuat dapat diuji.

Kelebihan dan keterbatasan

Kelebihan Kontributor eksternal tidak perlu memahami seluruh sistem; selama pengujian lolos, PR bisa di-merge dengan aman, sehingga hambatan masuk untuk kolaborasi menjadi lebih rendah.
Keterbatasan Jenis error yang merusak state (migration DB yang salah, pelanggaran keamanan, kebocoran privasi) tetap fatal, dan sekitar 10% titik integrasi serta infrastruktur pada dasarnya sulit diuji.
Jawaban terhadap keberatan Menanggapi argumen bahwa "orang yang pandai menulis pengujian biasanya juga pandai merancang arsitektur", ia menekankan bahwa inti ratchet bukanlah manusianya, melainkan jaring pengaman pada giliran berikutnya.

Pesan utama yang ingin disampaikan penulis adalah bahwa nilai sejati AI coding bukanlah "menulis lebih cepat", melainkan membuat "tingkat verifikasi yang selama ini ditinggalkan karena terlalu mahal" menjadi nyaris gratis. Cakupan pengujian 90% yang selama 50 tahun menjadi milik eksklusif industri penerbangan dan medis kini bisa menjadi keseharian satu orang, dan akibatnya batas kompleksitas software yang dapat dibuat oleh satu developer meningkat secara dramatis. Namun, tulisan ini sendiri juga berfungsi sebagai promosi untuk proyek open source miliknya (Superpowers, GBrain), dan beberapa kutipan statistiknya (misalnya GPT-5.5) masih perlu diverifikasi, sehingga tetap perlu dibaca secara kritis.

Complexity Ratchet pada AI Agent: Mengapa Cakupan Pengujian 90% Diperlukan

Complexity Ratchet di era coding AI - ringkasan esai Garry Tan

Bacaan terkait

Belum ada komentar.