12 poin oleh ragingwind 2026-05-13 | 1 komentar | Bagikan ke WhatsApp

Ini adalah esai panjang yang dibagikan Garry Tan (CEO Y Combinator) di X, merangkum pengalamannya selama setahun terakhir membangun dua proyek open source bersama agen AI (Claude Code, Codex, dan lain-lain). Ia mengatakan bahwa sekitar 970 ribu baris kode dan sebagian besar dari 665 file pengujian ditulis oleh AI, sambil menjalankan 15 sesi agen secara bersamaan. Melalui proses ini, ia berpendapat bahwa dalil lama rekayasa perangkat lunak, yaitu "kecepatan dan kualitas harus saling mengorbankan", kini telah runtuh, dan ia mengajukan konsep "Complexity Ratchet" sebagai mekanisme intinya.

Ringkasan konsep inti

  • Ratchet adalah metafora untuk mekanisme roda bergigi yang hanya bergerak ke satu arah, yang di sini berarti struktur yang membuat kualitas codebase terus maju tanpa mundur.
  • Tiga jenis akumulasi Di setiap sesi coding bersama agen, ada tiga hal yang terkumpul di codebase: pengujian (apa yang benar), dokumentasi (mengapa keputusan itu diambil), dan hasil evaluasi (garis dasar kualitas).
  • Pemanfaatan context window Karena agen AI pada sesi berikutnya membaca ketiga hal tersebut sebelum bekerja, mereka tidak bisa merusak pengujian, mengabaikan dokumentasi, atau menurunkan skor evaluasi.

Perbedaan dengan pendekatan lama

  • Perubahan model error Selama 50 tahun terakhir, rekayasa perangkat lunak membangun proses rumit seperti code review, QA, dan staging dengan asumsi bahwa "error itu fatal, jadi harus dicegah". Kini, sebagian besar error bisa didiagnosis dan diperbaiki oleh agen pada giliran berikutnya.
  • Perluasan batas kompleksitas Batas atas kompleksitas sistem meluas dari "jumlah yang bisa ditampung satu tim di kepala mereka" menjadi "satu orang dan agen-agen yang memuat seluruh codebase ke dalam konteks".
  • Keberlangsungan memori institusional Manusia bisa pergi karena resign atau burnout, tetapi pengetahuan yang tersisa dalam bentuk pengujian dan dokumentasi dapat dipanggil kembali oleh model apa pun, kapan pun.

Makna dari cakupan pengujian 90%

  • Kurva kualitas nonlinier Menurut studi Capers Jones terhadap lebih dari 10 ribu proyek, pada cakupan di bawah 70%, tingkat penghapusan cacat hanya berada di 65–75%, tetapi pada 85–95% melonjak ke 92–97%, menunjukkan adanya "titik lutut".
  • Preseden industri penerbangan Standar perangkat lunak penerbangan DO-178C mewajibkan cakupan MC/DC untuk sistem Level A (fatal), dengan tujuan mencapai tingkat penghapusan cacat di atas 99%.
  • AI mematahkan hambatan biaya Mengisi 20% cakupan terakhir selama ini membosankan dan mahal bagi manusia, tetapi agen tidak mengenal lelah, sehingga bisa terus menulis pengujian edge case bahkan dini hari.

Contoh nyata yang diajukan penulis

  • Peningkatan akurasi ekstraksi di GBrain Dalam lebih dari 100 ribu ekstraksi keyakinan, ada masalah salah mengidentifikasi "siapa yang membuat klaim itu" sebesar 35%. Masalah ini lalu dipatok dengan 17 pengujian, sehingga versi lanjutan mana pun tidak bisa turun di bawah tingkat tersebut.
  • Pengujian TTY di Superpowers Agen AI yang melewati review interaktif diawasi dan diblokir secara langsung menggunakan fitur pseudo-terminal Bun, sehingga kebutuhan nontradisional seperti "apakah AI benar-benar melakukan percakapan" juga dapat diubah menjadi pengujian.

Kelebihan dan batasan

  • Kelebihan Kontributor eksternal tidak perlu memahami seluruh sistem; selama mereka bisa meloloskan pengujian, PR dapat di-merge dengan aman, sehingga hambatan masuk untuk kolaborasi menjadi lebih rendah.
  • Batasan Jenis error yang merusak state (migrasi DB yang salah, pelanggaran keamanan, kebocoran privasi) tetap fatal, dan sekitar 10% titik integrasi serta infrastruktur pada dasarnya sulit diuji.
  • Jawaban terhadap sanggahan Terhadap kritik bahwa "orang yang pandai menulis pengujian biasanya juga pandai merancang arsitektur", ia menekankan bahwa inti ratchet bukan pada manusianya, melainkan pada jaring pengaman untuk giliran berikutnya.

Pesan utama yang ingin disampaikan penulis dalam tulisan ini adalah bahwa nilai sejati AI coding bukan sekadar "menulis lebih cepat", melainkan membuat "tingkat verifikasi yang selama ini terlalu mahal sehingga ditinggalkan" menjadi gratis. Cakupan pengujian 90% yang selama 50 tahun merupakan hak istimewa bidang penerbangan dan medis kini bisa menjadi keseharian satu orang, dan akibatnya batas atas kompleksitas perangkat lunak yang dapat dibuat oleh satu pengembang meningkat drastis. Namun, tulisan ini sendiri juga sekaligus menjadi promosi untuk proyek open source miliknya (Superpowers, GBrain), dan beberapa kutipan statistiknya (misalnya: GPT-5.5) masih perlu diverifikasi, sehingga tetap perlu dibaca secara kritis.

1 komentar

 
skymer 29 hari lalu

https://www.youtube.com/watch?v=mJ2GZRV63TE
orang yang membuat blog RoR dengan LOC 4 kali lebih banyak daripada sqlite...